[Trennmuster] Datenstruktur

Stephan Hennig mailing_list at arcor.de
Mi Apr 9 19:59:00 CEST 2014


Am 09.04.2014 17:15, schrieb Guenter Milde:

> Ich überlege, ob wir die Muster ggf. optimieren können, wenn wir in einem
> Vor-Lauf zunächst nur Grundwörter (bzw. nur an Haupttrennstellen) trennen
> und im zweiten Lauf patgen mit den so generierten Mustern "anfüttern".

Patgen akzeptiert zwei Arten von Bewertungen in der Eingabeliste:

  1. Wenn eine Ziffer vor einem Wort steht, gehen die folgenden Wörter
     mit jener Bewertung in Patgens Zählerei ein.  Wir könnten so zum
     Beispiel zusammengesetzte Wörter abwerten, in der Hoffnung, dass
     Patgen "normale" Wortstrukturen besser berücksichtigen kann.

  2. Jede einzelne Trennstellen kann auch bewertet werden.  Wir könnten
     also auch ganz gezielt für jede Trennstellenkategorie
     unterschiedliche Bewertungen vergeben.

Näheres per

  texdoc patgen
    => File Formats
      => Dictionary file

Möglicherweise lassen sich dadurch

  * die Muster etwas verkleinern,
  * die Effektivität der Muster erhöhen (mit welchem Maß auch immer),
  * die Anzahl benötigter höherer Level verringern,
  * ...

Viele Grüße,
Stephan Hennig




Mehr Informationen über die Mailingliste Trennmuster