[Trennmuster] Qualität der Trennmuster

Guenter Milde milde at users.sf.net
Do Apr 30 09:56:52 CEST 2015


On 29.04.15, Stephan Hennig wrote:
> Am 29.04.2015 um 12:49 schrieb Guenter Milde:
> > On 27.04.15, Tobias Wendorff wrote:
> >
> >> Irgendwie vermute ich immer noch, dass zu viele Einträge in der
> >> Wortliste die Qualität der Trennmuster herunterreißen.
> > 
> > Zu viele ist nicht so sehr das Problem, eher die Ungleichverteilung der
> > Stichprobe

> Welches Maß für die Gleich- oder Ungleichverteilung der Stichprobe
> schwebt dir vor?

Von einem Maß bin ich noch weit entfernt. Es geht darum, daß bei
"konkurrierenden Zerlegungen" die Anzahl der Wörter mit Variante a) vs.
Variante b) bestimmt, wie die Mehrdeutigkeit aufgelöst wird.

Möglichkeiten wären:

- generisches Muster für a) Ausnahmen für b)
- generisches Muster für b) Ausnahmen für a)
- trennschärfere Muster für a) und b)

Was davon wie von patgen gewählt wird, erschließt sich mir jetzt nicht.

Sicher ist aber, daß in den ersten zwei Fällen mehr Ausnahmen für die
"unterlegene" Variante eingetragen werden, wenn die entsprechenden Wörter
explizit in die Liste aufgenommen werden. 
-> die Qualität (im Sinne von "Anzahl korrekt getrennter Wörter") steigt.

Insofern sehe ich den Werners Ansatz: "Aufnehmen von offensichtlichen
Fehltrennungen" als korrekte Methode.

Ich sehe noch eine Chance zur Verbesserung:

So, wie es jetzt betrieben ist, kann es leicht zu einem "Überschießen" in
die andere Richtung kommen: 

Nicht alle Einträge sind mit allen Möglichen Ableitungen (Beugung,
Mehrzahl, weibl. Form ...) in der Liste.

Wenn wir aus Werners "dict-fail"-Liste Ableitungen aussortieren, also z.B.

  Bassanteil
  Bassanteile
  Bassanteilen
  Bassanteils

zu

  Bassanteil

dann:

  * haben wir deutlich weniger Arbeit,
    
  * ist die Gefahr der falschtrennung bisher korrekt getrennter
    "konkurrierender" Deutungen geringer.  

Im nächsten Schritt können wir dann testen, ob neu erzeugte Pattern den
Rest schon richtig trennen.

Das Skript "abgleich_neueinträge.py" enthält für den Ableich schon eine
Reihe an Regeln und "Endungspaaren", so daß ich mit relativ wenig Aufwand
ein "Filterprogramm" schreiben könnte, welches solche Paare aussortiert.

Günter

 









Mehr Informationen über die Mailingliste Trennmuster