[Trennmuster] Alfred
Stephan Hennig
mailing_list at arcor.de
Sa Jan 25 10:37:43 CET 2014
Am 25.01.2014 09:55, schrieb Georg Pfeiffer:
> Günther hat mal vorgeschlagen, es von Häufigkeitsklassen (ich nehme an,
> vom Google-Korpus oder so) abhängig zu machen. Da weiß ich im Moment
> noch nicht genau, wie man die bestimmt.
Als Näherung kannst du die Google-Books-Liste nehmen, die aus dem 2009er
Korpus abgeleitet ist,
<URL:http://projekte.dante.de/Trennmuster/Korpora#Google_Books_Liste>.
In der zweiten Spalte findest du die Häufigkeitsklasse. "Näherung",
weil ich glaube, die Verschiebung von 0.5 laut Wikipedia-Formel nicht
berücksichtigt zu haben,
<URL:http://de.wikipedia.org/wiki/H%C3%A4ufigkeitsklasse>. Die relative
Ordnung der Klassen ist davon aber nicht betroffen. Ich glaube, die
Mannheimer Liste liegt noch mehr daneben (die liegt mir momentan aber
nicht vor).
Zu den Namen: Wie ich beim Testen von ck-Trennungen feststelle, sind
falsche Sondertrennungen noch deutlich störender als einfache falsche
Trennungen. Das liegt wohl daran, dass das Wortbild bei falscher
Sondertrennung heftiger gestört wird. Namen, die /beliebige/ ck
enthalten, sollten daher wohl bevorzugt aufgenommen werden.
Hier mal eine Liste mit einigen Verstümmelungen, die auf unzureichende
Muster (bisher lediglich "c1k") zurückzuführen sind:
> -kig Zik-k-zack Zuk-ker Zuk-ker-bäk-ker zwek-k-mä-ßig zwik-ke zwik-kst Bek-k
> s Bek-ky Bork-k-ward Bork-k-wart Bork-k-wardt Brok-k-dorf Brok-k-dorff Dik-kens
> Dirk-k-sen Frank-ken Mak-ken-zie MK-Ken-zie Mak-kie Mes-ser Mek-k-len-burg P
> ük-k-ler Re-bek-ka Senk-ken-berg Vik-ki Vik-ky Wink-kel-mann Yorck York-ks Yor
> k-k-scher
Viele Grüße,
Stephan Hennig
Mehr Informationen über die Mailingliste Trennmuster