[Trennmuster] Arbeitslisten
Keno Wehr
wehr at abgol.de
Do Apr 16 12:24:17 CEST 2020
> In den letzten Tagen habe ich immer wieder neue einfache Komposita in
> unserer Wortliste ergänzt; Quelle dafür ist »german.dic«, das ich
> entsprechend bearbeitet habe (in erster Linie mit
> »abgleich_neueintraege.py«, wie schon in früheren E-Mails ausgeführt).
> und vergleiche die alten und neuen »pattmp.3«-Dateien[*] zur Kontrolle
> mittels »diff -u«. Wenn alles paßt, kommen die neuen Wörter ins
> Repositorium.
Hallo, Werner,
kannst du mal ein Beispiel dafür nennen, dass etwas „nicht passt“? Mir
ist nicht ganz klar, worauf du da achtest.
> Wollt Ihr da mitmachen? Damit wir Dopplungen vermeiden, könnte ich
> beispielsweise die 800.000 bearbeiteten Einträge in 800 kleine Dateien
> aufteilen (mit jeweils rund 70 Wörtern) und jedem von Euch 260 Dateien
> schicken. Nach einiger Zeit würde ich eine neue Version der
> Eingabedatei erzeugen und wieder einen Schwung solcher Dateien
> erzeugen, welche die alten Dateien ersetzten.
Grundsätzlich ja, aber schick mir für den Anfang bitte nur 20 Dateien,
damit die Aufgabe überschaubar bleibt, und dann vielleicht später mehr,
wenn man sich eingearbeitet hat und sich das Verfahren bewährt hat.
Als wir neulich über die neuen Patgen-Parameter diskutierten, hatte ich
folgende Idee: Zur Ergänzung der Wortliste könnten diejenigen Wörter aus
german.dic besonders geeignet sein, die mit den neuen und alten
Parametern unterschiedlich getrennt werden, da sie offenbar vom
vorhandenen Wortbestand so „weit entfernt“ sind, dass ihre Trennung sich
hieraus nicht eindeutig ergibt, sondern labil ist.
Ich habe dann folgende Schritte durchgeführt: Trennmuster mit den alten
und neuen Patgen-Parametern erzeugt und mit beiden Mustersätzen alle
Wörter aus german.dic getrennt (mit hyphenate.py), dann das diff
gebildet und die in diesem vorhandenen Wörter extrahiert. Das waren dann
über 63.000 Wörter, so dass ich erst mal keinen Mut hatte, das anzugehen.
Durch die Neuwörter der vergangenen Tage ist die Liste mittlerweile auf
ca. 60.000 geschrumpft, was für eine gewisse Stabilisierung der Muster
spricht.
Gruß
Keno
Mehr Informationen über die Mailingliste Trennmuster