[Trennmuster] prepare_wordlist.sh
Georg Pfeiffer
gp at praetor.de
So Feb 16 09:55:57 CET 2014
Am So 16 Feb 2014, 08:47:41 Uhr, schrieb Werner LEMBERG:
> > < s/[^ ]*-[^ ]*//g
> > < s/[^ ]*[’´][^ ]*//g
>
> Was hat Dich dazu gebracht, diese zwei Ausdrücke zu entfernen? Haben
> sie gestört oder das Ergebnis verzerrt?
Sie sind m. E. überflüssig. Ich lösche die Punktuation nicht, sondern
ersetze sie durch Leerzeichen, die dann ducch Zeilenumbrüche, und mit
sed '/..../!d' fliegt dann wirklich der ganze Schrott raus. Andernfalls
kann es passieren, daß das Löschen einer Punktuation zwey Worte
zusammenklebt, die nicht zusammengehören. Bindestrichworte bestehen oft
aus zwey oder mehreren gültigen Wortformen, die ich so erhalte.
Ungültige Teilworte wie "angreifungs" sind wirklich seltene Ausnahmen
und leicht zu identifizieren. Da ich die Liste der neuen Worte ohnehin
durchgehe und sie auf die verschiedenen Listen (wortliste | pre-1901 |
locale Namensliste) verteile, werde ich eine ungültige Form nicht leicht
übersehen.
Georg
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname : signature.asc
Dateityp : application/pgp-signature
Dateigröße : 198 bytes
Beschreibung: This is a digitally signed message part.
URL : <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20140216/941909ae/attachment.asc>
Mehr Informationen über die Mailingliste Trennmuster