[Trennmuster] Fechterhalle

Keno Wehr keno.wehr at abgol.de
Do Apr 26 22:07:19 CEST 2018


Am 26.04.2018 um 17:45 schrieb Werner LEMBERG:

> Wenn ich folgende Parameter setze
>    1 1 | 1 5 | 1 1 1
>    2 2 | 2 6 | 1 2 1
>    3 3 | 3 7 | 1 1 1
>    4 4 | 4 8 | 1 4 1
>    5 5 | 5 9 | 1 1 1
>    6 6 | 6 10 | 1 6 1
>    7 7 | 7 11 | 1 4 1
>    8 8 | 8 12 | 1 8 1
>
> gibt's keine fehlenden Trennungen mit einer Kontextlänge von acht
> Buchstaben.  Allerdings, um diese (wahrscheinlich besseren) Werte zu
> verwenden, muß man patgen selbst kompilieren, wobei in der Datei
> »patgen.ch« die Werte
>
>    trie_size=5500000;
>    triec_size=2600000;
>
> zu setzen sind (also zehnmal größer machen).
>

Gibt es für die Güte von Trennmustern irgendwelche objektiven Kriterien, 
abgesehen davon, dass die Trennungen richtig und vollständig sein sollten?

Die mit den neuen Parameterwerten erzeugten Muster enthalten deutlich 
weniger 8er-Muster als die mit den bisherigen Werten erzeugten (3 vs. 
105), aber ca. 900 Einträge mehr (3,5 %).
Wäre es nicht vorteilhafter, die 9. Ebene dazuzunehmen, wenn die 
Musteranzahl dadurch kleiner gehalten werden kann? Oder ist es im 
Gegenteil besser, mit möglichst wenigen Ebenen auszukommen?
Wenn klar ist, welches Optimalitätskriterium gilt, könnte man sicher 
leicht ein Skript aufsetzen, dass mit der Brute-Force-Methode 
verschiedene Parameterkombinationen durchprobiert, um die besten Werte 
zu finden (das dürfte aber mehrere Stunden dauern).
Wenn solche Unterschiede praktisch gar keine Rolle spielen, wäre es 
sicherlich besser, keine Parameterwerte zu wählen, die dem Nutzer eine 
eigene Compilierung abverlangen.

Keno



Mehr Informationen über die Mailingliste Trennmuster