[Trennmuster] Fechterhalle

Stephan Hennig sh-list at posteo.net
Do Apr 26 23:43:08 CEST 2018


Am 26.04.2018 um 22:07 schrieb Keno Wehr:

> Gibt es für die Güte von Trennmustern irgendwelche objektiven Kriterien, 
> abgesehen davon, dass die Trennungen richtig und vollständig sein sollten?

Denkbar sind viele:

  * geringe Dateigröße,
  * geringe Musterzahl,
  * geringer RAM-Verbrauch (nicht identisch mit Dateigröße),
  * geringes Maß für die Musterlänge (z.B. Durchschnitt über
    alle Muster),
  * geringes Maß für die Levelzahlen,
  * geringes Maß für die Zahl der passenden Mustern pro
    Wort (z.B Durchschnitt über alle Wörter oder aber nur die
    häufigsten),
  * hohes Maß für die Zahl der passenden Wörter pro Muster
    (Mustereffektivität),
  * ...

An objektiven Kriterien mangelt es nicht.  Es fehlt der Überblick,
welche Kriterien relevanter wären als andere.


> Die mit den neuen Parameterwerten erzeugten Muster enthalten deutlich 
> weniger 8er-Muster als die mit den bisherigen Werten erzeugten (3 vs. 
> 105), aber ca. 900 Einträge mehr (3,5 %).
> Wäre es nicht vorteilhafter, die 9. Ebene dazuzunehmen, wenn die 
> Musteranzahl dadurch kleiner gehalten werden kann? Oder ist es im 
> Gegenteil besser, mit möglichst wenigen Ebenen auszukommen?

Fragen über Fragen.  Wir benötigen schon eine ganze Weile Level 8.  Da
war es nur eine Frage der Zeit, wann Patgen ins Straucheln kommt.
Dadurch dass der letzte Durchlauf mit Level 8 passiert, wird wenigstens
darauf hingewirkt, dass Patgen nicht mit einer Fehltrennung endet,
sondern mit einer ausgelassenen Trennung.  Im Zweifel könnte man solche
Muster immer guten Gewissens veröffentlichen.  Insbesondere auch unter
Zeitnot noch schnell vor TeX Live. :-)  Das ist die Idee, warum nur
Level 1 bis 8 verwendet werden.  (Um Arthurs Frage zu beantworten.)


> Wenn klar ist, welches Optimalitätskriterium gilt, könnte man sicher 
> leicht ein Skript aufsetzen, dass mit der Brute-Force-Methode 
> verschiedene Parameterkombinationen durchprobiert, um die besten Werte 
> zu finden (das dürfte aber mehrere Stunden dauern).
> Wenn solche Unterschiede praktisch gar keine Rolle spielen,
Ich vermute, dass für verwickelte Sprachen wie Deutsch, wo vorhandene
Struktur durch beliebige Wortbildungen verwässert wird, andere Kriterien
als die Trenngüte nicht relevant sind.


> wäre es sicherlich besser, keine Parameterwerte zu wählen, die dem
> Nutzer eine eigene Compilierung abverlangen.
Sicher.  Aber wenn sich ein solcher Parametersatz nächstes Jahr nicht
mehr finden lässt, hat man das Problem auch nur verschoben.

Viele Grüße,
Stephan Hennig



Mehr Informationen über die Mailingliste Trennmuster