[Trennmuster] Vergleich alte und neue patgen-Parameter

Werner LEMBERG wl at gnu.org
Sa Apr 4 14:40:06 CEST 2020


> Bei der Entwicklung der neuen Trennmuster für klassisches Latein
> [...] habe ich [...] ein Skript geschrieben, das die Parameter
> systematisch variiert [...] Mein Ziel war dabei eine Minimierung der
> Musterzahl.

Danke für die Daten, aber warum ist die Minimierung Dein Ziel?  Ist es
nicht heutzutage egal, ob die Muster 20kByte oder 200kByte groß sind?
Der »packed trie«, der im Liangschen Algorithmus zum Anwenden der
Muster verwendet wird, ist extrem gut konstruiert, und die Größe der
Muster haben einen vernachlässigbaren Einfluß auf die
Trenngeschwindigkeit.

Ich habe die Werte für die deutschen Trennmuster auch nur geändert,
weil die originalen Parameter eine neunte Ebene gebraucht hätten um
alle Wörter in der »wortliste«-Datei korrekt zu trennen.  Bei den
neuen ist das (noch?) nicht der Fall.  Mein Gefühl sagt mir aber, daß
wir, egal welche Parameter wir benutzen, auf jeden Fall acht Ebenen
brauchen.


    Werner




Mehr Informationen über die Mailingliste Trennmuster