[Trennmuster] Datenstruktur
Guenter Milde
milde at users.sf.net
Fr Apr 11 09:38:50 CEST 2014
On 9.04.14, Stephan Hennig wrote:
> Am 09.04.2014 17:15, schrieb Guenter Milde:
> > Ich überlege, ob wir die Muster ggf. optimieren können, wenn wir in einem
> > Vor-Lauf zunächst nur Grundwörter (bzw. nur an Haupttrennstellen) trennen
> > und im zweiten Lauf patgen mit den so generierten Mustern "anfüttern".
> Patgen akzeptiert zwei Arten von Bewertungen in der Eingabeliste:
> 1. Wenn eine Ziffer vor einem Wort steht, gehen die folgenden Wörter
> mit jener Bewertung in Patgens Zählerei ein. Wir könnten so zum
> Beispiel zusammengesetzte Wörter abwerten, in der Hoffnung, dass
> Patgen "normale" Wortstrukturen besser berücksichtigen kann.
> 2. Jede einzelne Trennstellen kann auch bewertet werden. Wir könnten
> also auch ganz gezielt für jede Trennstellenkategorie
> unterschiedliche Bewertungen vergeben.
Ich dachte eher an zwei Durchgänge:
patgen dictionary_file pattern_file patout_file translate_file
The patgen program reads the dictionary_file containing a list of
hyphenated words and the pattern_file containing previously-generated
patterns (if any) for a particular language
Aber ich muß zugeben, daß ich in diese Materie bisher noch nicht
eingedrungen bin...
> Möglicherweise lassen sich dadurch
> * die Muster etwas verkleinern,
> * die Effektivität der Muster erhöhen (mit welchem Maß auch immer),
> * die Anzahl benötigter höherer Level verringern,
> * ...
Günter
Mehr Informationen über die Mailingliste Trennmuster