[Trennmuster] Vergleich alte und neue patgen-Parameter

Werner LEMBERG wl at gnu.org
Sa Apr 4 11:28:49 CEST 2020


Liebe Trennende!


Zu Testzwecken habe ich Trennmuster mit den derzeit verwendeten
patgen-Parametern und den vorher benutzten (siehe Commit 33b65bf6)
erzeugt und folgendermaßen getestet.

* Aus der in früheren E-Mails bereits erwähnten, aus »german.dic«
  erzeugten großen Liste habe ich nur Einträge genommen, die genau
  einmal ein »=« enthalten; das sind fast eine Million Wörter (Fehler
  wie das »c-k«-Problem habe nicht bereinigt, weil statistisch
  insignifikant).

* Verwende »hyphenate_neueintraege«, um 100000 zufällig ausgewählte
  Wörter mit den alten und neuen Trennmustern zu trennen.

* Entferne alle Einträge, die »·« enthalten.

Hier die Statistiken:

Alt:

  # 67787 identisch
  # 6971 gleich (bis auf Sprachvariante)
  # 1598 gleich (bis auf Wichtung/Unterdrückung)
  # 8221 gleich (bis auf Kategorisierung)
  # 15423 anders getrennt
  # 0 Vorgabe ohne Trennung

Neu:

  # 67899 identisch
  # 6976 gleich (bis auf Sprachvariante)
  # 1611 gleich (bis auf Wichtung/Unterdrückung)
  # 8264 gleich (bis auf Kategorisierung)
  # 15250 anders getrennt
  # 0 Vorgabe ohne Trennung

Einerseits ist es erfreulich, daß die neuen patgen-Parameter keine
Verschlechterung bedeuten, andererseits gibt's doch eine Menge
Fehltrennungen.  Die Zahl der »anders getrennten« Wörter ist übrigens
nicht die tatsächliche Anzahl der falsch getrennten Wörter!  Das
Skript zählt z.B.

    aargauischem;aar=gau-i-schem
  # aargauischem;aar=gaui-schem
    Abbaupotential;Ab<bau=po-ten-ti.al
  # Abbaupotential;Ab<bau=po-ten-ti-al

als verschieden (was natürlich korrekt ist), obwohl keine Fehltrennung
vorliegt.

Nach einer manuellen Durchsicht von einem anderen Sample von 1000
Wörtern schätze ich die Anzahl der echten Fehltrennungen von einfachen
Komposita auf rund 3% (immer noch sehr viel, meiner Meinung nach).
Wir haben also noch genug zu tun.


    Werner




Mehr Informationen über die Mailingliste Trennmuster