[Trennmuster] Vergleich alte und neue patgen-Parameter

Sa Apr 4 20:30:26 CEST 2020

Am 04.04.20 um 14:40 schrieb Werner LEMBERG:
> Danke für die Daten, aber warum ist die Minimierung Dein Ziel?  Ist es
> nicht heutzutage egal, ob die Muster 20kByte oder 200kByte groß sind?
> Der »packed trie«, der im Liangschen Algorithmus zum Anwenden der
> Muster verwendet wird, ist extrem gut konstruiert, und die Größe der
> Muster haben einen vernachlässigbaren Einfluß auf die
> Trenngeschwindigkeit.

Man mag das als praxisfremden Idealismus abtun, ich würde aber niemals 
Muster im Umfang von 200 kB einreichen, wenn ich auch welche mit nur 20 
kB erzeugen kann.
Die Trennmusterdatei für klassisches Latein enthält jetzt 26.076 Muster. 
Auch wenn sich die Trennqualität für Komposita erheblich verbessert hat 
und jetzt auch diakritische Zeichen unterstützt werden, finde ich das 
immer noch schrecklich viel im Vergleich zu den ursprünglich 740 Mustern 
von Claudio. Ich vermute, dass man die Anzahl bei manueller Erstellung 
wesentlich kleiner halten könnte; das ist mir aber dann doch zu viel 
Arbeit. Die Trennmuster für liturgisches Latein werden von Hand gepflegt 
(nicht von mir) und umfassen lediglich 2070 Muster bei einer ebenfalls 
guten Trennqualität auch für Komposita.
Hinter dem Wunsch nach Minimierung stand wohl auch die implizite 
Überzeugung, dass ein geringerer Umfang der Trennmuster eine bessere 
Trennqualität für nicht in der Liste enthaltene Wörter bedeutet.
Genau diese Vermutung würde ich nun gerne anhand der deutschen 
Trennmuster und deiner Vergleichsliste überprüft sehen.

> Ich habe die Werte für die deutschen Trennmuster auch nur geändert,
> weil die originalen Parameter eine neunte Ebene gebraucht hätten um
> alle Wörter in der »wortliste«-Datei korrekt zu trennen.  Bei den
> neuen ist das (noch?) nicht der Fall.  Mein Gefühl sagt mir aber, daß
> wir, egal welche Parameter wir benutzen, auf jeden Fall acht Ebenen
> brauchen.

In diesem Falle trügt dich dein Gefühl.
Ich habe die von mir mitgeteilten Parameterwerte auf die deutschen 
Verhältnisse angepasst und folgende Werte ausprobiert:

%   1 1 | 1 3 | 2 3 1
%   2 2 | 2 4 | 1 5 1
%   3 3 | 3 5 | 1 6 1
%   4 4 | 4 6 | 1 7 1
%   5 5 | 5 12 | 1 8 1
%   6 6 | 6 12 | 1 9 1
%   7 7 | 7 12 | 1 9 1
%   8 8 | 8 12 | 1 9 1

Nach dem 7. Durchlauf waren bereits alle Trennstellen korrekt, im 8. 
wurden keine Muster mehr geändert.
Es wurden 24.394/24.287/23.937 Muster (für AR/NR/AR Schweiz) erzeugt.

Mit den momentan im Repositorium hinterlegten Werten

%   1 1 | 1 5 | 1 1 1
%   2 2 | 2 6 | 1 2 1
%   3 3 | 3 7 | 1 1 1
%   4 4 | 4 8 | 1 4 1
%   5 5 | 5 9 | 1 1 1
%   6 6 | 6 10 | 1 6 1
%   7 7 | 7 11 | 1 4 1
%   8 8 | 8 12 | 1 8 1

werden 26.485/26.382/26.011 Muster (für AR/NR/AR Schweiz) erzeugt, also 
ca. 2000 mehr.
Zumindest nach meiner Auffassung wäre also noch eine geringfügige 
Optimierung möglich.

Spannend wäre jetzt die Untersuchung der Auswirkung der vorgeschlagenen 
Parameter auf die Trennqualität ...

Herzlichen Gruß
Keno