[Trennmuster] Arbeitslisten

Guenter Milde milde at users.sf.net
Fr Apr 17 09:39:21 CEST 2020


On 16.04.20, Werner LEMBERG wrote:

...

> > Als wir neulich über die neuen Patgen-Parameter diskutierten, hatte
> > ich folgende Idee: Zur Ergänzung der Wortliste könnten diejenigen
> > Wörter aus german.dic besonders geeignet sein, die mit den neuen und
> > alten Parametern unterschiedlich getrennt werden, da sie offenbar
> > vom vorhandenen Wortbestand so „weit entfernt“ sind, dass ihre
> > Trennung sich hieraus nicht eindeutig ergibt, sondern labil ist.

> Interessanter Ansatz, aber...

> > Ich habe dann folgende Schritte durchgeführt: Trennmuster mit den
> > alten und neuen Patgen-Parametern erzeugt und mit beiden
> > Mustersätzen alle Wörter aus german.dic getrennt (mit hyphenate.py),
> > dann das diff gebildet und die in diesem vorhandenen Wörter
> > extrahiert.  Das waren dann über 63.000 Wörter, so dass ich erst mal
> > keinen Mut hatte, das anzugehen.

> ... ich denke, Du wirst keinen grundsätzlichen Qualitätsunterschied
> zwischen den Mustern erkennen können.  Mir ist es bis jetzt noch nicht
> gelungen, irgendeinen Trend hin zu besseren oder schlechteren
> Trennungen bei nichterfaßten Wörtern zu entdecken: Die prozentuelle
> Anzahl der falsch getrennten Wörter scheint immer ungefähr gleich zu
> sein und nicht durch patgen-Parameter beeinflußbar.


Ich denke, es geht auch nicht um einen *Qualitäts*unterschied zwischen den
Mustern, sondern darum welche Trennungen "wacklig" und welche stabil sind.

Von der Aufgabenstellung "Entscheide, welche der 1,4 Millionen
Zusatzeinträge in german.dic in die Wortliste übernommen werden sollen"
ausgehend halte ich die Auswahl solcher "Wackeltrennungen" für einen
sinnvollen Weg.


Alternativ hätte ich eine Auswahl von  5000 Wörtern mit
Zerlegungsalternativen bei Zerlegung mit "abgleich_neueintraege.py"

Viele Grüße

Günter



Mehr Informationen über die Mailingliste Trennmuster