[Trennmuster] Vergleich alte und neue patgen-Parameter
Keno Wehr
wehr at abgol.de
Sa Apr 4 12:29:38 CEST 2020
Lieber Werner,
danke für deine Bemühungen um eine weitere Verbesserung der Trennqualität.
Bei der Entwicklung der neuen Trennmuster für klassisches Latein (die
nun endlich auch in hyph-utf8 enthalten sind), habe ich – als meine
Wortliste einen gewissen Umfang erreicht hatte – ausgehend von den
Patgen-Parametern, die für die deutschen Trennmuster Verwendung finden,
ein Skript geschrieben, das die Parameter systematisch variiert und die
Anzahl der erforderlichen Muster pro Ebene protokolliert. Mein Ziel war
dabei eine Minimierung der Musterzahl. Die Trennqualität konnte ich
mangels geeigneter Vergleichsliste nicht überprüfen. Die Minimierung
gilt natürlich nur für den damaligen Stand meiner Wortliste; außerdem
liegt auch nur ein lokales und nicht zwangsläufig ein globales Minimum
vor, da ich mit der zur Verfügung stehenden Rechenleistung unmöglich
alle theoretisch möglichen Parameterkombinationen überprüfen konnte,
sondern nur begrenzte Abweichungen von den Werten der deutschen
Trennmuster zugelassen habe.
Folgende Parameter haben sich in diesem eingeschränkten Sinne als ideal
herausgestellt:
% 1 1 | 1 3 | 2 3 1
% 2 2 | 2 4 | 1 5 1
% 3 3 | 3 5 | 1 6 1
% 4 4 | 4 6 | 1 7 1
% 5 5 | 5 11 | 1 8 1
% 6 6 | 6 11 | 1 9 1
% 7 7 | 7 11 | 1 9 1
Eine achte Ebene war nicht erforderlich.
Wenn du etwas Zeit zum Experimentieren hast, kannst du diese Werte ja
mal mit der deutschen Wortliste ausprobieren.
Gruß
Keno
Am 04.04.20 um 11:28 schrieb Werner LEMBERG:
> Liebe Trennende!
>
>
> Zu Testzwecken habe ich Trennmuster mit den derzeit verwendeten
> patgen-Parametern und den vorher benutzten (siehe Commit 33b65bf6)
> erzeugt und folgendermaßen getestet.
>
> * Aus der in früheren E-Mails bereits erwähnten, aus »german.dic«
> erzeugten großen Liste habe ich nur Einträge genommen, die genau
> einmal ein »=« enthalten; das sind fast eine Million Wörter (Fehler
> wie das »c-k«-Problem habe nicht bereinigt, weil statistisch
> insignifikant).
>
> * Verwende »hyphenate_neueintraege«, um 100000 zufällig ausgewählte
> Wörter mit den alten und neuen Trennmustern zu trennen.
>
> * Entferne alle Einträge, die »·« enthalten.
>
> Hier die Statistiken:
>
> Alt:
>
> # 67787 identisch
> # 6971 gleich (bis auf Sprachvariante)
> # 1598 gleich (bis auf Wichtung/Unterdrückung)
> # 8221 gleich (bis auf Kategorisierung)
> # 15423 anders getrennt
> # 0 Vorgabe ohne Trennung
>
> Neu:
>
> # 67899 identisch
> # 6976 gleich (bis auf Sprachvariante)
> # 1611 gleich (bis auf Wichtung/Unterdrückung)
> # 8264 gleich (bis auf Kategorisierung)
> # 15250 anders getrennt
> # 0 Vorgabe ohne Trennung
>
> Einerseits ist es erfreulich, daß die neuen patgen-Parameter keine
> Verschlechterung bedeuten, andererseits gibt's doch eine Menge
> Fehltrennungen. Die Zahl der »anders getrennten« Wörter ist übrigens
> nicht die tatsächliche Anzahl der falsch getrennten Wörter! Das
> Skript zählt z.B.
>
> aargauischem;aar=gau-i-schem
> # aargauischem;aar=gaui-schem
> Abbaupotential;Ab<bau=po-ten-ti.al
> # Abbaupotential;Ab<bau=po-ten-ti-al
>
> als verschieden (was natürlich korrekt ist), obwohl keine Fehltrennung
> vorliegt.
>
> Nach einer manuellen Durchsicht von einem anderen Sample von 1000
> Wörtern schätze ich die Anzahl der echten Fehltrennungen von einfachen
> Komposita auf rund 3% (immer noch sehr viel, meiner Meinung nach).
> Wir haben also noch genug zu tun.
>
>
> Werner
>
> _______________________________________________
> Trennmuster mailing list
> Trennmuster at dante.de
> https://lists.dante.de/mailman/listinfo/trennmuster
Mehr Informationen über die Mailingliste Trennmuster