[Trennmuster] Warum nicht sisisi

Werner LEMBERG wl at gnu.org
Fr Nov 29 22:29:49 CET 2013


> Es gibt keinerlei Untersuchungen über die Qualität der Trennmuster
> in Bezug auf den zugrundeliegenden Datenbestand.

Im Prinzip enthält die Liste die Worte der Mannheimer Liste bis
Häufigkeitsklasse 19 oder so, wenn ich mich richtig erinnere.  Wir
haben das bereinigt, und ich glaube, daß die Qualität nicht schlecht
ist.

> Sollte man die Wörter zufällig wählen, sollte es ein Mix aus kurz
> oder lang sein, sollte es ein Mix aus Umgangssprache oder
> Fachsprache sein, oder sollte es eher kurze oder lange Muster, oder
> ...

Das ist mir im Prinzip egal.  Wer immer Einträge beisteuern will, der
soll das tun.

> Aber aus meinen Spielereien mit PaTgen schließe ich, dass man ab
> 200.000 richtig getrennten Wörtern keine wesentliche Verbesserung
> der Trennmuster wird erzeugen können.  Falsche Trennungen über eine
> Ausnahmeliste zu erfassen, erscheint mir sinnvoller, als den
> Datenbestand permanent zu erhöhen.

Dieser Meinung bin ich nicht.  Abgesehen davon, daß die Liste auch für
anderes als Trennstellen verwendet werden kann, *werden* die Muster
verbessert, weil eben mehr Wörter korrekt getrennt werden können.


    Werner


Mehr Informationen über die Mailingliste Trennmuster