[Trennmuster] prepare_wordlist.sh

Georg Pfeiffer gp at praetor.de
So Feb 16 09:55:57 CET 2014


Am So 16 Feb 2014, 08:47:41 Uhr, schrieb Werner LEMBERG:
> > < s/[^ ]*-[^ ]*//g
> > < s/[^ ]*[’´][^ ]*//g
> 
> Was hat Dich dazu gebracht, diese zwei Ausdrücke zu entfernen? Haben 
> sie gestört oder das Ergebnis verzerrt?

Sie sind m. E. überflüssig. Ich lösche die Punktuation nicht, sondern 
ersetze sie durch Leerzeichen, die dann ducch Zeilenumbrüche, und mit 
sed '/..../!d' fliegt dann wirklich der ganze Schrott raus. Andernfalls 
kann es passieren, daß das Löschen einer Punktuation zwey Worte 
zusammenklebt, die nicht zusammengehören. Bindestrichworte bestehen oft 
aus zwey oder mehreren gültigen Wortformen, die ich so erhalte. 
Ungültige Teilworte wie "angreifungs" sind wirklich seltene Ausnahmen 
und leicht zu identifizieren. Da ich die Liste der neuen Worte ohnehin 
durchgehe und sie auf die verschiedenen Listen (wortliste | pre-1901 | 
locale Namensliste) verteile, werde ich eine ungültige Form nicht leicht 
übersehen.

Georg
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : signature.asc
Dateityp    : application/pgp-signature
Dateigröße  : 198 bytes
Beschreibung: This is a digitally signed message part.
URL         : <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20140216/941909ae/attachment.asc>


Mehr Informationen über die Mailingliste Trennmuster