[Trennmuster] Vergleich alte und neue patgen-Parameter
Guenter Milde
milde at users.sf.net
So Apr 5 12:34:12 CEST 2020
On 4.04.20, Werner LEMBERG wrote:
> Liebe Trennende!
> Zu Testzwecken habe ich Trennmuster mit den derzeit verwendeten
> patgen-Parametern und den vorher benutzten (siehe Commit 33b65bf6)
> erzeugt und folgendermaßen getestet.
> * Aus der in früheren E-Mails bereits erwähnten, aus »german.dic«
> erzeugten großen Liste habe ich nur Einträge genommen, die genau
> einmal ein »=« enthalten; das sind fast eine Million Wörter (Fehler
> wie das »c-k«-Problem habe nicht bereinigt, weil statistisch
> insignifikant).
> * Verwende »hyphenate_neueintraege«, um 100000 zufällig ausgewählte
> Wörter mit den alten und neuen Trennmustern zu trennen.
Mein Vorschlag zum Vergleich ist
* Trenne alle Wörter aus "german.dic" mit dem TeX Trennalgorithmus
(z.B. mit skripte/python/patuse/hyphenation.py:
#> ./hyphenation.py -f <musterdatei> --hyphen="-" EINGABEDATEI > AUSGABEDATEI
)
* Mache dies mit allen zu vergleichenden Trennmustersätzen.
* Vergleiche die Ergebnisse mit `diff` und versuche herauszufinden ob es
eine Verbesserung oder Verschlechterung gegeben hat bzw. was anders ist.
Das sondert Artefakte durch die "nachträgliche" Kategorisierung in
"hyphenate_neueintraege" aus, muss dann natürlich für jedes make-Ziel
einzeln erfolgen.
Neben Änderungen der patgen-Parameter erlaubt es auch, die Wirkung von
Neueinträgen in der "Wortliste" zu verfolgen und damit evt. auch
festzustellen, ob es sinniger ist vorwiegend falsch getrennte Wörter
aufzunehmen oder lieber richtig getrennte (und wenn ja, mit wie vielen
Endungsvarianten...).
Bleibt gesund,
Günter
Mehr Informationen über die Mailingliste Trennmuster