[Trennmuster] Fechterhalle
Keno Wehr
keno.wehr at abgol.de
Do Apr 26 22:07:19 CEST 2018
Am 26.04.2018 um 17:45 schrieb Werner LEMBERG:
> Wenn ich folgende Parameter setze
> 1 1 | 1 5 | 1 1 1
> 2 2 | 2 6 | 1 2 1
> 3 3 | 3 7 | 1 1 1
> 4 4 | 4 8 | 1 4 1
> 5 5 | 5 9 | 1 1 1
> 6 6 | 6 10 | 1 6 1
> 7 7 | 7 11 | 1 4 1
> 8 8 | 8 12 | 1 8 1
>
> gibt's keine fehlenden Trennungen mit einer Kontextlänge von acht
> Buchstaben. Allerdings, um diese (wahrscheinlich besseren) Werte zu
> verwenden, muß man patgen selbst kompilieren, wobei in der Datei
> »patgen.ch« die Werte
>
> trie_size=5500000;
> triec_size=2600000;
>
> zu setzen sind (also zehnmal größer machen).
>
Gibt es für die Güte von Trennmustern irgendwelche objektiven Kriterien,
abgesehen davon, dass die Trennungen richtig und vollständig sein sollten?
Die mit den neuen Parameterwerten erzeugten Muster enthalten deutlich
weniger 8er-Muster als die mit den bisherigen Werten erzeugten (3 vs.
105), aber ca. 900 Einträge mehr (3,5 %).
Wäre es nicht vorteilhafter, die 9. Ebene dazuzunehmen, wenn die
Musteranzahl dadurch kleiner gehalten werden kann? Oder ist es im
Gegenteil besser, mit möglichst wenigen Ebenen auszukommen?
Wenn klar ist, welches Optimalitätskriterium gilt, könnte man sicher
leicht ein Skript aufsetzen, dass mit der Brute-Force-Methode
verschiedene Parameterkombinationen durchprobiert, um die besten Werte
zu finden (das dürfte aber mehrere Stunden dauern).
Wenn solche Unterschiede praktisch gar keine Rolle spielen, wäre es
sicherlich besser, keine Parameterwerte zu wählen, die dem Nutzer eine
eigene Compilierung abverlangen.
Keno
Mehr Informationen über die Mailingliste Trennmuster