[Trennmuster] Nebeneffekte, Testdaten

Guenter Milde milde at users.sf.net
Mi Sep 16 00:21:28 CEST 2020


On 15.09.20, Selke, Gisbert W. wrote:

...

> Ein weiterer Schritt, mit dem ich begonnen habe, ist übrigens die
> Umsetzung eines ein alten Plans von mir: german.dic als Testdatensatz
> zu verwenden, an dem man sieht, welche (möglicherweise unerwünschten)
> Nebeneffekte Änderungen an der Wortliste haben. 

Mein Ansatz hier ist die Suche nach Abweichungen in den Trennstellen bei
einer Zerlegung der Wörter in bekannte Konstituenten im Vergleich zur
Trennung mit patgen. Die Durchsicht der abweichenden Trennungen zeigt, dass
in der Mehrzahl der Fälle die Trennung mit patgen "spinnt", also die Zahl
der Abweichungen als ein Schätzmaß für die "Güte" der Trennmuster angenommen
werden kann.


Stichprobe: 
  german.dic  2 Mill Einträge

Arbeitsschritte:

1. Aussortieren von Wörtern, die
      * in der "wortliste" sind (-v)
      * <= 3 Buchstaben sind (-3)
      * in den "Nichtwörtern" gelistet sind (-n)
      * ggf. auch Ableitungen von Wörtern der "wortliste" sind (-a)
   mit `filter_wortliste.py -vna3`:

     german-vna3: 628 890 Einträge,

2. Abgleich mit vorhandenen Einträgen (! dauert lange)

     ../edit_tools/abgleich_neueintraege.py -k < german-vna3.txt > abgleich-vna3.txt

3. Abtrennen der mehrdeutigen (und ungetrennten) Einträge

     Texteditor,  copy-paste to abgleich-vn3a-eindeutig.txt

4. Trennen mit patterns:

     ../edit_tools/hyphenate_neueintraege.py -k < abgleich-vna3-eindeutig.txt > vna3-hyph.txt

5. Auswählen der Einträge mit "Abweichung im Standard-Trennstil"

     Texteditor, copy paste to vna3-abweichung.txt



Bei einer älteren Stichprobe hatte ich zu verschiedenen Zeiten die
Trenn-Pattern neu generiert und Schritte 4 und 5 wiederholt. 

Von den nicht in der "wortliste" erfassten Wörtern werden als < 2,5%
falsch getrennt.

Es zeigte sich, dass die Verallgemeinerungseffekte dazu führen, dass bei
Hinzufügen neuer Einträge zur Wortliste für bisher fehlerhaft getrennte
Wörter die Verminderung der Abweichungen größer ist als die Zahl der
Neueinträge.

Andererseits hat die Aufnahme der Wörter in Umschrift zu über 2000 neuen
Abweichungen geführt.

Datum    Einträge  Abweichungen Standard    relativ
======   ========  =====================    =======
28.05.   482680    29 996                   2,5%  
          +2123    -3 082
24.06.   484803    26 914 
           +282    -1 050
26.06.   485086    25 864 		    2,1%
             +0¹   +2 328
28.06.   485086    28 192		    2,3% 
	   +592    -1 681
01.07    485678    26 511		    2,24%

¹ aber zusätzlich 94 000 Wörter in Umschrift

Ein "diff" über die Ergebnisse der "hyphenation" mit patgen mit Trennmustern
liefert noch mehr Aufschluss über die Stabilität der Trennungen: neben den
"spontanen" Korrekturen führen die Neueinträge auch zu neuen Fehltrennungen.

Mein Ziel ist es, nach dem gegenwärtigen "Eintragsmarathon" und der Aufnahme
der Arzneiwirkstoffe die gegenüber der letzten Veröffentlichung neu
hinzugekommenen Abweichungen zu bestimmen und vor der nächsten
Veröffentlichung zu korrigieren.

Viele Grüße

Günter



Mehr Informationen über die Mailingliste Trennmuster