[Trennmuster] Arbeitslisten
Werner LEMBERG
wl at gnu.org
Do Apr 16 13:39:28 CEST 2020
>> und vergleiche die alten und neuen »pattmp.3«-Dateien[*] zur Kontrolle
>> mittels »diff -u«. Wenn alles paßt, kommen die neuen Wörter ins
>> Repositorium.
>
> kannst du mal ein Beispiel dafür nennen, dass etwas „nicht passt“?
> Mir ist nicht ganz klar, worauf du da achtest.
Z.B. Deine Änderung:
wan*der*dü*nen
wan*de*re
wan*de*rer
-wan*de.r*er*lass
+wan*de.r*er.lass
wan*de.r*er.leb*nis
wan*de*rern
wan*de*rers
Hier sieht man, daß auch beim Wort »Wandererlebnis« die Trennung nach
dem »er« unterdrückt wird, die Trennmuster in diesem Stadium aber
gerne trennen würden. Jetzt muß man sich fragen, ob das von uns
gewollt ist (in diesem Fall ja), oder ob's da irgendwo einen Fehler
gibt und auf alle ähnlich gelagerte Muster ausstrahlt.
Anderes Beispiel: Bei der Durchsicht fiel mir vor ein paar Tagen
folgendes auf:
-gua*nako
+gua*na.ko
Dieses Wort habe ich nicht frisch eingepflegt, jedoch haben die leicht
veränderten Trennmuster dafür gesorgt, daß in diesem Stadium
eigentlich eine Trennung »na-ko« erwartet wird. Tatsächlich war das
ein Fehler in der Wortliste.
>> Wollt Ihr da mitmachen? [...]
>
> Grundsätzlich ja, aber schick mir für den Anfang bitte nur 20
> Dateien, damit die Aufgabe überschaubar bleibt, und dann vielleicht
> später mehr, wenn man sich eingearbeitet hat und sich das Verfahren
> bewährt hat.
OK.
> Als wir neulich über die neuen Patgen-Parameter diskutierten, hatte
> ich folgende Idee: Zur Ergänzung der Wortliste könnten diejenigen
> Wörter aus german.dic besonders geeignet sein, die mit den neuen und
> alten Parametern unterschiedlich getrennt werden, da sie offenbar
> vom vorhandenen Wortbestand so „weit entfernt“ sind, dass ihre
> Trennung sich hieraus nicht eindeutig ergibt, sondern labil ist.
Interessanter Ansatz, aber...
> Ich habe dann folgende Schritte durchgeführt: Trennmuster mit den
> alten und neuen Patgen-Parametern erzeugt und mit beiden
> Mustersätzen alle Wörter aus german.dic getrennt (mit hyphenate.py),
> dann das diff gebildet und die in diesem vorhandenen Wörter
> extrahiert. Das waren dann über 63.000 Wörter, so dass ich erst mal
> keinen Mut hatte, das anzugehen.
... ich denke, Du wirst keinen grundsätzlichen Qualitätsunterschied
zwischen den Mustern erkennen können. Mir ist es bis jetzt noch nicht
gelungen, irgendeinen Trend hin zu besseren oder schlechteren
Trennungen bei nichterfaßten Wörtern zu entdecken: Die prozentuelle
Anzahl der falsch getrennten Wörter scheint immer ungefähr gleich zu
sein und nicht durch patgen-Parameter beeinflußbar.
Werner
Mehr Informationen über die Mailingliste Trennmuster