[Trennmuster] Vergleich alte und neue patgen-Parameter

Werner LEMBERG wl at gnu.org
Mo Apr 6 10:01:13 CEST 2020


> [...] Hinter dem Wunsch nach Minimierung stand wohl auch die
> implizite Überzeugung, dass ein geringerer Umfang der Trennmuster
> eine bessere Trennqualität für nicht in der Liste enthaltene Wörter
> bedeutet.  Genau diese Vermutung würde ich nun gerne anhand der
> deutschen Trennmuster und deiner Vergleichsliste überprüft sehen.

Hehe :-)

>> Mein Gefühl sagt mir aber, daß wir, egal welche Parameter wir
>> benutzen, auf jeden Fall acht Ebenen brauchen.
>
> In diesem Falle trügt dich dein Gefühl.  Ich habe die von mir
> mitgeteilten Parameterwerte auf die deutschen Verhältnisse angepasst
> und folgende Werte ausprobiert:
> 
> %   1 1 | 1 3 | 2 3 1
> %   2 2 | 2 4 | 1 5 1
> %   3 3 | 3 5 | 1 6 1
> %   4 4 | 4 6 | 1 7 1
> %   5 5 | 5 12 | 1 8 1
> %   6 6 | 6 12 | 1 9 1
> %   7 7 | 7 12 | 1 9 1
> %   8 8 | 8 12 | 1 9 1
> 
> Nach dem 7. Durchlauf waren bereits alle Trennstellen korrekt, im
> 8. wurden keine Muster mehr geändert.  Es wurden
> 24.394/24.287/23.937 Muster (für AR/NR/AR Schweiz) erzeugt.

Aaaaah!  Sehr gut, daß Du mich widerlegen kannst :-)

> Spannend wäre jetzt die Untersuchung der Auswirkung der
> vorgeschlagenen Parameter auf die Trennqualität ...

Bin dabei!


    Werner




Mehr Informationen über die Mailingliste Trennmuster