[Trennmuster] Datenstruktur

Guenter Milde milde at users.sf.net
Fr Apr 11 09:38:50 CEST 2014


On  9.04.14, Stephan Hennig wrote:
> Am 09.04.2014 17:15, schrieb Guenter Milde:

> > Ich überlege, ob wir die Muster ggf. optimieren können, wenn wir in einem
> > Vor-Lauf zunächst nur Grundwörter (bzw. nur an Haupttrennstellen) trennen
> > und im zweiten Lauf patgen mit den so generierten Mustern "anfüttern".

> Patgen akzeptiert zwei Arten von Bewertungen in der Eingabeliste:

>   1. Wenn eine Ziffer vor einem Wort steht, gehen die folgenden Wörter
>      mit jener Bewertung in Patgens Zählerei ein.  Wir könnten so zum
>      Beispiel zusammengesetzte Wörter abwerten, in der Hoffnung, dass
>      Patgen "normale" Wortstrukturen besser berücksichtigen kann.

>   2. Jede einzelne Trennstellen kann auch bewertet werden.  Wir könnten
>      also auch ganz gezielt für jede Trennstellenkategorie
>      unterschiedliche Bewertungen vergeben.

Ich dachte eher an zwei Durchgänge:

  patgen dictionary_file pattern_file patout_file translate_file

  The patgen program reads the dictionary_file containing a list of
  hyphenated words and the pattern_file containing previously-generated
  patterns (if any) for a particular language 

Aber ich muß zugeben, daß ich in diese Materie bisher noch nicht
eingedrungen bin...


> Möglicherweise lassen sich dadurch

>   * die Muster etwas verkleinern,
>   * die Effektivität der Muster erhöhen (mit welchem Maß auch immer),
>   * die Anzahl benötigter höherer Level verringern,
>   * ...

Günter



Mehr Informationen über die Mailingliste Trennmuster