[Trennmuster] Vergleich alte und neue patgen-Parameter
Werner LEMBERG
wl at gnu.org
Sa Apr 4 11:28:49 CEST 2020
Liebe Trennende!
Zu Testzwecken habe ich Trennmuster mit den derzeit verwendeten
patgen-Parametern und den vorher benutzten (siehe Commit 33b65bf6)
erzeugt und folgendermaßen getestet.
* Aus der in früheren E-Mails bereits erwähnten, aus »german.dic«
erzeugten großen Liste habe ich nur Einträge genommen, die genau
einmal ein »=« enthalten; das sind fast eine Million Wörter (Fehler
wie das »c-k«-Problem habe nicht bereinigt, weil statistisch
insignifikant).
* Verwende »hyphenate_neueintraege«, um 100000 zufällig ausgewählte
Wörter mit den alten und neuen Trennmustern zu trennen.
* Entferne alle Einträge, die »·« enthalten.
Hier die Statistiken:
Alt:
# 67787 identisch
# 6971 gleich (bis auf Sprachvariante)
# 1598 gleich (bis auf Wichtung/Unterdrückung)
# 8221 gleich (bis auf Kategorisierung)
# 15423 anders getrennt
# 0 Vorgabe ohne Trennung
Neu:
# 67899 identisch
# 6976 gleich (bis auf Sprachvariante)
# 1611 gleich (bis auf Wichtung/Unterdrückung)
# 8264 gleich (bis auf Kategorisierung)
# 15250 anders getrennt
# 0 Vorgabe ohne Trennung
Einerseits ist es erfreulich, daß die neuen patgen-Parameter keine
Verschlechterung bedeuten, andererseits gibt's doch eine Menge
Fehltrennungen. Die Zahl der »anders getrennten« Wörter ist übrigens
nicht die tatsächliche Anzahl der falsch getrennten Wörter! Das
Skript zählt z.B.
aargauischem;aar=gau-i-schem
# aargauischem;aar=gaui-schem
Abbaupotential;Ab<bau=po-ten-ti.al
# Abbaupotential;Ab<bau=po-ten-ti-al
als verschieden (was natürlich korrekt ist), obwohl keine Fehltrennung
vorliegt.
Nach einer manuellen Durchsicht von einem anderen Sample von 1000
Wörtern schätze ich die Anzahl der echten Fehltrennungen von einfachen
Komposita auf rund 3% (immer noch sehr viel, meiner Meinung nach).
Wir haben also noch genug zu tun.
Werner
Mehr Informationen über die Mailingliste Trennmuster