[Trennmuster] Qualität der Trennmuster
Werner LEMBERG
wl at gnu.org
Do Apr 30 10:25:56 CEST 2015
> Wenn wir aus Werners "dict-fail"-Liste Ableitungen aussortieren,
> also z.B.
>
> Bassanteil
> Bassanteile
> Bassanteilen
> Bassanteils
>
> zu
>
> Bassanteil
>
> dann:
>
> * haben wir deutlich weniger Arbeit,
>
> * ist die Gefahr der falschtrennung bisher korrekt getrennter
> "konkurrierender" Deutungen geringer.
Das kann sein, muß aber nicht.
> Im nächsten Schritt können wir dann testen, ob neu erzeugte Pattern
> den Rest schon richtig trennen.
Also ich bin prinzipiell dafür, Trennmuster basierend auf *allen*
möglichen Formen zu bilden, solange nicht jemand herumspielt und mir
das Gegenteil beweist (so wie Du vorschlägst).
> Das Skript "abgleich_neueinträge.py" enthält für den Ableich schon
> eine Reihe an Regeln und "Endungspaaren", so daß ich mit relativ
> wenig Aufwand ein "Filterprogramm" schreiben könnte, welches solche
> Paare aussortiert.
Wir hatten schon einmal die Diskussion, ob man die Anzahl der Wörter
in der Wortliste reduzieren kann, unter Verwendung einer ähnlichen
Auszeichnung wie bei »aspell«. Falls also beispielsweise absichtlich
nur »Bassanteil« in der Liste steht, *muß* meiner Meinung nach ein
Kommentar (o.ä.) darauf hinweisen, daß die anderen Formen bewußt
ausgelassen werden.
Werner
Mehr Informationen über die Mailingliste Trennmuster