[Trennmuster] Qualität der Trennmuster
Guenter Milde
milde at users.sf.net
Do Apr 30 11:06:50 CEST 2015
On 30.04.15, Werner LEMBERG wrote:
> > Wenn wir aus Werners "dict-fail"-Liste Ableitungen aussortieren,
...
> > dann:
> > * haben wir deutlich weniger Arbeit,
> >
> > * ist die Gefahr der falschtrennung bisher korrekt getrennter
> > "konkurrierender" Deutungen geringer.
> Das kann sein, muß aber nicht.
Zumindest die erste Aussage stimmt sicher.
> > Im nächsten Schritt können wir dann testen, ob neu erzeugte Pattern
> > den Rest schon richtig trennen.
> Also ich bin prinzipiell dafür, Trennmuster basierend auf *allen*
> möglichen Formen zu bilden, ...
...
OK. Aber wenn die Wörter schon mal richtig getrennt werden, ist das
Eintragen dennoch leichter!
> > Das Skript "abgleich_neueinträge.py" enthält für den Ableich schon
> > eine Reihe an Regeln und "Endungspaaren", so daß ich mit relativ
> > wenig Aufwand ein "Filterprogramm" schreiben könnte, welches solche
> > Paare aussortiert.
> Wir hatten schon einmal die Diskussion, ob man die Anzahl der Wörter
> in der Wortliste reduzieren kann, unter Verwendung einer ähnlichen
> Auszeichnung wie bei »aspell«. Falls also beispielsweise absichtlich
> nur »Bassanteil« in der Liste steht, *muß* meiner Meinung nach ein
> Kommentar (o.ä.) darauf hinweisen, daß die anderen Formen bewußt
> ausgelassen werden.
Es ging mir jetzt vordringlich um die Prioritätensetzung bei der Aufnahme
neuer Wörter. Meines Erachtens lieber erst "Stammwörter A-Z" als "alles A-C".
Günter
Mehr Informationen über die Mailingliste Trennmuster