[Trennmuster] git Merge: 02ef744 fa33c68
Stephan Hennig
mailing_list at arcor.de
Fr Nov 15 19:00:45 CET 2013
Am 12.11.2013 00:30, schrieb Stephan Hennig:
> Am 10.11.2013 14:22, schrieb Werner LEMBERG:
>>
>>> Wie gesagt, ist nur als Anregung gedacht. Ich werde die
>>> entsprechenden Dateien demnächst aus dem Repositorium entfernen.
>>
>> Hmm. Ich fände es besser, wenn Du stattdessen die Skripte auf den
>> letzten Stand aktualisierst und mit einem Kommentar versiehst, der auf
>> die Probleme hinweist.
>
> Ich werde mal sehen, ob ich das Skript nicht doch noch in einen
> funktionalen Zustand bekomme.
Ich habe einige Anpassungen vorgenommen, die die Zahl der als ungültig
erkannten Datensätze bzw. Wörter von mehreren Hunderttausend auf ca.
4800 drücken. Probleme gibt es noch mit
* Trennstellen, die durch mehrere Zeichen markiert werden,
zum Beispiel ||,
* einigen speziellen Alternativen [/].
Um die Fälle werde ich mich demnächst kümmern. Am besten ist es
momentan, erstere Fälle per grep nachträglich zu filtern. Dann werden
in master nur noch 10 Wörter bemängelt, zum Beispiel so:
> $ texlua validate.lua < ../wortliste |grep -v '[-|=.][-|=.]'
> Feld 3: ungültiges Wort: Bettuch;-2-;Be[t=t/{tt/tt=t}]uch;Bet=tuch
> Feld 3: ungültiges Wort: Bettuche;-2-;Be[t=tu-/{tt/tt=t}u.]che;Bet=tu-che
> Feld 3: ungültiges Wort: Bettücher;-2-;Be[t=tü-/{tt/tt=t}ü.]cher;Bet=tü-cher
> Feld 3: ungültiges Wort: Bettüchern;-2-;Be[t=tü-/{tt/tt=t}ü.]chern;Bet=tü-chern
> Feld 3: ungültiges Wort: Bettuches;-2-;Be[t=tu-/{tt/tt=t}u.]ches;Bet=tu-ches
> Feld 3: ungültiges Wort: Bettuchs;-2-;Be[t=t/{tt/tt=t}]uchs;Bet=tuchs
> Feld 3: ungültiges Wort: griffest;-2-;gri[f-f/{ff/ff=f}]est;grif-fest # griff+fe
> st / du griffest
> Feld 6: ungültiges Wort: Hochgeschwindigkeitstrasse;-2-;-3-;-4-;-5-;Hoch|ge|schw
> in-dig-keit[=stra-ss/s=tras-s]e;Hoch|ge|schwin-dig-keit[=s/s=]tras-se;Hoch|ge|sc
> hwin-dig-keit[=s/s=]tras-se
> Feld 6: ungültiges Wort: Hochgeschwindigkeitstrassen;-2-;-3-;-4-;-5-;Hoch|ge|sch
> win-dig-keit[=stra-ss/s=tras-s]en;Hoch|ge|schwin-dig-keit[=s/s=]tras-sen;Hoch|ge
> |schwin-dig-keit[=s/s=]tras-sen
> Feld 2: ungültiges Wort: Wales;Wa[-/]les
> ua 373626
> uxt_ 6157
> ux_r 1200
> uxtr 38339
> ux__c 2975
> ux__xt__ 0
> ux__x_r_ 26
> ux__x__s 297
> ux__xt_s 33
> ux__xtr_ 82
> ux__xtrs 5746
> ux_rc 4406
> ux_rxtr_ 232
> ux_rxtrs 357
> gesamt 438287
> ungültig 4811
Beachte, im grep-Suchausdruck muss dass Minuszeichen jeweils unmittelbar
hinter der öffnenden eckigen Klammer stehen. Anderenfalls ändert sich
die Bedeutung des Minuszeichens innerhalb der Klammer.
Fehlermeldungen beginnen entweder mit 'ungültiger Datensatz' oder
'Feld'. Erstere beschreiben strukturell fehlerhafte Datensätze (falsche
Feldbelegung), letztere als fehlerhaft erkannte Wörter innerhalb eines
gültigen Datensatzes.
Viele Grüße,
Stephan Hennig
Mehr Informationen über die Mailingliste Trennmuster