[Trennmuster] Vergleich alte und neue patgen-Parameter

Sa Apr 4 12:29:38 CEST 2020

Lieber Werner,
danke für deine Bemühungen um eine weitere Verbesserung der Trennqualität.

Bei der Entwicklung der neuen Trennmuster für klassisches Latein (die 
nun endlich auch in hyph-utf8 enthalten sind), habe ich – als meine 
Wortliste einen gewissen Umfang erreicht hatte – ausgehend von den 
Patgen-Parametern, die für die deutschen Trennmuster Verwendung finden, 
ein Skript geschrieben, das die Parameter systematisch variiert und die 
Anzahl der erforderlichen Muster pro Ebene protokolliert. Mein Ziel war 
dabei eine Minimierung der Musterzahl. Die Trennqualität konnte ich 
mangels geeigneter Vergleichsliste nicht überprüfen. Die Minimierung 
gilt natürlich nur für den damaligen Stand meiner Wortliste; außerdem 
liegt auch nur ein lokales und nicht zwangsläufig ein globales Minimum 
vor, da ich mit der zur Verfügung stehenden Rechenleistung unmöglich 
alle theoretisch möglichen Parameterkombinationen überprüfen konnte, 
sondern nur begrenzte Abweichungen von den Werten der deutschen 
Trennmuster zugelassen habe.
Folgende Parameter haben sich in diesem eingeschränkten Sinne als ideal 
herausgestellt:

%   1 1 | 1 3 | 2 3 1
%   2 2 | 2 4 | 1 5 1
%   3 3 | 3 5 | 1 6 1
%   4 4 | 4 6 | 1 7 1
%   5 5 | 5 11 | 1 8 1
%   6 6 | 6 11 | 1 9 1
%   7 7 | 7 11 | 1 9 1

Eine achte Ebene war nicht erforderlich.

Wenn du etwas Zeit zum Experimentieren hast, kannst du diese Werte ja 
mal mit der deutschen Wortliste ausprobieren.

Gruß
Keno

Am 04.04.20 um 11:28 schrieb Werner LEMBERG:
> Liebe Trennende!
>
>
> Zu Testzwecken habe ich Trennmuster mit den derzeit verwendeten
> patgen-Parametern und den vorher benutzten (siehe Commit 33b65bf6)
> erzeugt und folgendermaßen getestet.
>
> * Aus der in früheren E-Mails bereits erwähnten, aus »german.dic«
>    erzeugten großen Liste habe ich nur Einträge genommen, die genau
>    einmal ein »=« enthalten; das sind fast eine Million Wörter (Fehler
>    wie das »c-k«-Problem habe nicht bereinigt, weil statistisch
>    insignifikant).
>
> * Verwende »hyphenate_neueintraege«, um 100000 zufällig ausgewählte
>    Wörter mit den alten und neuen Trennmustern zu trennen.
>
> * Entferne alle Einträge, die »·« enthalten.
>
> Hier die Statistiken:
>
> Alt:
>
>    # 67787 identisch
>    # 6971 gleich (bis auf Sprachvariante)
>    # 1598 gleich (bis auf Wichtung/Unterdrückung)
>    # 8221 gleich (bis auf Kategorisierung)
>    # 15423 anders getrennt
>    # 0 Vorgabe ohne Trennung
>
> Neu:
>
>    # 67899 identisch
>    # 6976 gleich (bis auf Sprachvariante)
>    # 1611 gleich (bis auf Wichtung/Unterdrückung)
>    # 8264 gleich (bis auf Kategorisierung)
>    # 15250 anders getrennt
>    # 0 Vorgabe ohne Trennung
>
> Einerseits ist es erfreulich, daß die neuen patgen-Parameter keine
> Verschlechterung bedeuten, andererseits gibt's doch eine Menge
> Fehltrennungen.  Die Zahl der »anders getrennten« Wörter ist übrigens
> nicht die tatsächliche Anzahl der falsch getrennten Wörter!  Das
> Skript zählt z.B.
>
>      aargauischem;aar=gau-i-schem
>    # aargauischem;aar=gaui-schem
>      Abbaupotential;Ab<bau=po-ten-ti.al
>    # Abbaupotential;Ab<bau=po-ten-ti-al
>
> als verschieden (was natürlich korrekt ist), obwohl keine Fehltrennung
> vorliegt.
>
> Nach einer manuellen Durchsicht von einem anderen Sample von 1000
> Wörtern schätze ich die Anzahl der echten Fehltrennungen von einfachen
> Komposita auf rund 3% (immer noch sehr viel, meiner Meinung nach).
> Wir haben also noch genug zu tun.
>
>
>      Werner
>
> _______________________________________________
> Trennmuster mailing list
> Trennmuster at dante.de
> https://lists.dante.de/mailman/listinfo/trennmuster