[Trennmuster] Datenstruktur
Stephan Hennig
mailing_list at arcor.de
Mi Apr 9 19:59:00 CEST 2014
Am 09.04.2014 17:15, schrieb Guenter Milde:
> Ich überlege, ob wir die Muster ggf. optimieren können, wenn wir in einem
> Vor-Lauf zunächst nur Grundwörter (bzw. nur an Haupttrennstellen) trennen
> und im zweiten Lauf patgen mit den so generierten Mustern "anfüttern".
Patgen akzeptiert zwei Arten von Bewertungen in der Eingabeliste:
1. Wenn eine Ziffer vor einem Wort steht, gehen die folgenden Wörter
mit jener Bewertung in Patgens Zählerei ein. Wir könnten so zum
Beispiel zusammengesetzte Wörter abwerten, in der Hoffnung, dass
Patgen "normale" Wortstrukturen besser berücksichtigen kann.
2. Jede einzelne Trennstellen kann auch bewertet werden. Wir könnten
also auch ganz gezielt für jede Trennstellenkategorie
unterschiedliche Bewertungen vergeben.
Näheres per
texdoc patgen
=> File Formats
=> Dictionary file
Möglicherweise lassen sich dadurch
* die Muster etwas verkleinern,
* die Effektivität der Muster erhöhen (mit welchem Maß auch immer),
* die Anzahl benötigter höherer Level verringern,
* ...
Viele Grüße,
Stephan Hennig
Mehr Informationen über die Mailingliste Trennmuster