[Trennmuster] git Merge: 02ef744 fa33c68

Stephan Hennig mailing_list at arcor.de
Fr Nov 15 19:00:45 CET 2013


Am 12.11.2013 00:30, schrieb Stephan Hennig:
> Am 10.11.2013 14:22, schrieb Werner LEMBERG:
>> 
>>> Wie gesagt, ist nur als Anregung gedacht.  Ich werde die
>>> entsprechenden Dateien demnächst aus dem Repositorium entfernen.
>> 
>> Hmm.  Ich fände es besser, wenn Du stattdessen die Skripte auf den
>> letzten Stand aktualisierst und mit einem Kommentar versiehst, der auf
>> die Probleme hinweist.
> 
> Ich werde mal sehen, ob ich das Skript nicht doch noch in einen
> funktionalen Zustand bekomme.

Ich habe einige Anpassungen vorgenommen, die die Zahl der als ungültig
erkannten Datensätze bzw. Wörter von mehreren Hunderttausend auf ca.
4800 drücken.  Probleme gibt es noch mit

  * Trennstellen, die durch mehrere Zeichen markiert werden,
    zum Beispiel ||,
  * einigen speziellen Alternativen [/].

Um die Fälle werde ich mich demnächst kümmern.  Am besten ist es
momentan, erstere Fälle per grep nachträglich zu filtern.  Dann werden
in master nur noch 10 Wörter bemängelt, zum Beispiel so:

> $ texlua validate.lua < ../wortliste |grep -v '[-|=.][-|=.]'
> Feld 3: ungültiges Wort: Bettuch;-2-;Be[t=t/{tt/tt=t}]uch;Bet=tuch
> Feld 3: ungültiges Wort: Bettuche;-2-;Be[t=tu-/{tt/tt=t}u.]che;Bet=tu-che
> Feld 3: ungültiges Wort: Bettücher;-2-;Be[t=tü-/{tt/tt=t}ü.]cher;Bet=tü-cher
> Feld 3: ungültiges Wort: Bettüchern;-2-;Be[t=tü-/{tt/tt=t}ü.]chern;Bet=tü-chern
> Feld 3: ungültiges Wort: Bettuches;-2-;Be[t=tu-/{tt/tt=t}u.]ches;Bet=tu-ches
> Feld 3: ungültiges Wort: Bettuchs;-2-;Be[t=t/{tt/tt=t}]uchs;Bet=tuchs
> Feld 3: ungültiges Wort: griffest;-2-;gri[f-f/{ff/ff=f}]est;grif-fest # griff+fe
> st / du griffest
> Feld 6: ungültiges Wort: Hochgeschwindigkeitstrasse;-2-;-3-;-4-;-5-;Hoch|ge|schw
> in-dig-keit[=stra-ss/s=tras-s]e;Hoch|ge|schwin-dig-keit[=s/s=]tras-se;Hoch|ge|sc
> hwin-dig-keit[=s/s=]tras-se
> Feld 6: ungültiges Wort: Hochgeschwindigkeitstrassen;-2-;-3-;-4-;-5-;Hoch|ge|sch
> win-dig-keit[=stra-ss/s=tras-s]en;Hoch|ge|schwin-dig-keit[=s/s=]tras-sen;Hoch|ge
> |schwin-dig-keit[=s/s=]tras-sen
> Feld 2: ungültiges Wort: Wales;Wa[-/]les
> ua              373626
> uxt_            6157
> ux_r            1200
> uxtr            38339
> ux__c           2975
> ux__xt__        0
> ux__x_r_        26
> ux__x__s        297
> ux__xt_s        33
> ux__xtr_        82
> ux__xtrs        5746
> ux_rc           4406
> ux_rxtr_        232
> ux_rxtrs        357
> gesamt          438287
> ungültig        4811

Beachte, im grep-Suchausdruck muss dass Minuszeichen jeweils unmittelbar
hinter der öffnenden eckigen Klammer stehen.  Anderenfalls ändert sich
die Bedeutung des Minuszeichens innerhalb der Klammer.

Fehlermeldungen beginnen entweder mit 'ungültiger Datensatz' oder
'Feld'.  Erstere beschreiben strukturell fehlerhafte Datensätze (falsche
Feldbelegung), letztere als fehlerhaft erkannte Wörter innerhalb eines
gültigen Datensatzes.

Viele Grüße,
Stephan Hennig




Mehr Informationen über die Mailingliste Trennmuster