[Trennmuster] german.dic-Abgleich

Stephan Hennig sh-list at posteo.net
Mi Apr 29 23:01:44 CEST 2015


Am 29.04.2015 um 12:49 schrieb Guenter Milde:
> On 27.04.15, Tobias Wendorff wrote:
>
>> Irgendwie vermute ich immer noch, dass zu viele Einträge in der
>> Wortliste die Qualität der Trennmuster herunterreißen.
> 
> Zu viele ist nicht so sehr das Problem, eher die Ungleichverteilung der
> Stichprobe

Welches Maß für die Gleich- oder Ungleichverteilung der Stichprobe
schwebt dir vor?


> Ansonsten frage ich mich, ob die Unterdrückung "irreführender" Trennungen
> die Generalisierung in günstiger oder ungünstiger Richtung verzerrt.

Die Frage ist nicht uninteressant.  Der Effekt unterdrückter Trennungen
auf die Muster ließe sich relativ einfach untersuchen.  In den nächsten
Wochen werde ich dazu allerdings leider nicht kommen.

Einerseits sollte der Effekt gering sein.  Die unsystematischen
Unterdrückungen, wie Zweifel-derwirtschaft, sind vermutlich nicht der
Rede wert.  Systematische Unterdrückungen wiederum betreffen meistens
ziemlich klar abgrenzbare Wörter bzw. Wortteile.  Das zweite Wort eines
zusammengesetzten Wortes fängt meistens mit einem charakteristischen
Muster xy< an.  Da es sich bei xy allerdings häufig ausgerechnet um die
Silben "er" und "en" handelt (Gewinner-wartung, Begleiter-scheinung,
Atomen-ergie, Staren-semble), lässt sich die Auswirkung in der Tat nicht
so einfach abschätzen.

Viele Grüße,
Stephan Hennig




Mehr Informationen über die Mailingliste Trennmuster