[Trennmuster] Arbeitslisten
Werner LEMBERG
wl at gnu.org
Mi Apr 15 18:31:40 CEST 2020
Lieber Günter, lieber Keno,
liebe weitere Interessierte!
In den letzten Tagen habe ich immer wieder neue einfache Komposita in
unserer Wortliste ergänzt; Quelle dafür ist »german.dic«, das ich
entsprechend bearbeitet habe (in erster Linie mit
»abgleich_neueintraege.py«, wie schon in früheren E-Mails ausgeführt).
Die derzeitige Eingabeliste, die ich verwende, hat etwas mehr als
800.000 Einträge; ich extrahiere davon jeweils 1000 zufällig gewählte
Zeilen, schicke sie durch »hyphenate_neueintraege.py« und bearbeite
nur Einträge aus dem zweiten Abschnitt der Ausgabe (»Unterschiedliche
Trennung«). Da sind rund 70 Wörter zu kontrollieren, und nur wenn es
eine Fehltrennung durch die Trennmuster gibt (also der Eintrag im
Kommentar falsch ist), füge ich es in die Wortliste ein – mit
Ergänzung der üblichen Wortformen sind das dann rund 100 Zeilen.
Nach zwei solchen Durchläufen erzeuge ich neue Trennmuster wie folgt
rm -rf dehyphn-x-major.old \
dehyphn-x.old
mv dehyphn-x-major dehyphn-x-major.old
mv dehyphn-x dehyphn-x.old
make pattern-refo
make major pattern-refo
und vergleiche die alten und neuen »pattmp.3«-Dateien[*] zur Kontrolle
mittels »diff -u«. Wenn alles paßt, kommen die neuen Wörter ins
Repositorium.
Das Abarbeiten in so kleinen Häppchen empfinde ich nicht als besonders
anstrengend; die Fehlerrate sollte daher nicht allzu hoch sein.
Wollt Ihr da mitmachen? Damit wir Dopplungen vermeiden, könnte ich
beispielsweise die 800.000 bearbeiteten Einträge in 800 kleine Dateien
aufteilen (mit jeweils rund 70 Wörtern) und jedem von Euch 260 Dateien
schicken. Nach einiger Zeit würde ich eine neue Version der
Eingabedatei erzeugen und wieder einen Schwung solcher Dateien
erzeugen, welche die alten Dateien ersetzten.
Werner
[*] In »pattmp.5« ist meiner Meinung nach schon zuviel richtig
getrennt; da zahlt sich eine Kontrolle nicht aus.
Mehr Informationen über die Mailingliste Trennmuster