[Trennmuster] Nebeneffekte, Testdaten
Guenter Milde
milde at users.sf.net
Mi Sep 16 00:21:28 CEST 2020
On 15.09.20, Selke, Gisbert W. wrote:
...
> Ein weiterer Schritt, mit dem ich begonnen habe, ist übrigens die
> Umsetzung eines ein alten Plans von mir: german.dic als Testdatensatz
> zu verwenden, an dem man sieht, welche (möglicherweise unerwünschten)
> Nebeneffekte Änderungen an der Wortliste haben.
Mein Ansatz hier ist die Suche nach Abweichungen in den Trennstellen bei
einer Zerlegung der Wörter in bekannte Konstituenten im Vergleich zur
Trennung mit patgen. Die Durchsicht der abweichenden Trennungen zeigt, dass
in der Mehrzahl der Fälle die Trennung mit patgen "spinnt", also die Zahl
der Abweichungen als ein Schätzmaß für die "Güte" der Trennmuster angenommen
werden kann.
Stichprobe:
german.dic 2 Mill Einträge
Arbeitsschritte:
1. Aussortieren von Wörtern, die
* in der "wortliste" sind (-v)
* <= 3 Buchstaben sind (-3)
* in den "Nichtwörtern" gelistet sind (-n)
* ggf. auch Ableitungen von Wörtern der "wortliste" sind (-a)
mit `filter_wortliste.py -vna3`:
german-vna3: 628 890 Einträge,
2. Abgleich mit vorhandenen Einträgen (! dauert lange)
../edit_tools/abgleich_neueintraege.py -k < german-vna3.txt > abgleich-vna3.txt
3. Abtrennen der mehrdeutigen (und ungetrennten) Einträge
Texteditor, copy-paste to abgleich-vn3a-eindeutig.txt
4. Trennen mit patterns:
../edit_tools/hyphenate_neueintraege.py -k < abgleich-vna3-eindeutig.txt > vna3-hyph.txt
5. Auswählen der Einträge mit "Abweichung im Standard-Trennstil"
Texteditor, copy paste to vna3-abweichung.txt
Bei einer älteren Stichprobe hatte ich zu verschiedenen Zeiten die
Trenn-Pattern neu generiert und Schritte 4 und 5 wiederholt.
Von den nicht in der "wortliste" erfassten Wörtern werden als < 2,5%
falsch getrennt.
Es zeigte sich, dass die Verallgemeinerungseffekte dazu führen, dass bei
Hinzufügen neuer Einträge zur Wortliste für bisher fehlerhaft getrennte
Wörter die Verminderung der Abweichungen größer ist als die Zahl der
Neueinträge.
Andererseits hat die Aufnahme der Wörter in Umschrift zu über 2000 neuen
Abweichungen geführt.
Datum Einträge Abweichungen Standard relativ
====== ======== ===================== =======
28.05. 482680 29 996 2,5%
+2123 -3 082
24.06. 484803 26 914
+282 -1 050
26.06. 485086 25 864 2,1%
+0¹ +2 328
28.06. 485086 28 192 2,3%
+592 -1 681
01.07 485678 26 511 2,24%
¹ aber zusätzlich 94 000 Wörter in Umschrift
Ein "diff" über die Ergebnisse der "hyphenation" mit patgen mit Trennmustern
liefert noch mehr Aufschluss über die Stabilität der Trennungen: neben den
"spontanen" Korrekturen führen die Neueinträge auch zu neuen Fehltrennungen.
Mein Ziel ist es, nach dem gegenwärtigen "Eintragsmarathon" und der Aufnahme
der Arzneiwirkstoffe die gegenüber der letzten Veröffentlichung neu
hinzugekommenen Abweichungen zu bestimmen und vor der nächsten
Veröffentlichung zu korrigieren.
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster