[Trennmuster] Alfred

Sa Jan 25 10:37:43 CET 2014

Am 25.01.2014 09:55, schrieb Georg Pfeiffer:

> Günther hat mal vorgeschlagen, es von Häufigkeitsklassen (ich nehme an, 
> vom Google-Korpus oder so) abhängig zu machen. Da weiß ich im Moment 
> noch nicht genau, wie man die bestimmt.

Als Näherung kannst du die Google-Books-Liste nehmen, die aus dem 2009er
Korpus abgeleitet ist,
<URL:http://projekte.dante.de/Trennmuster/Korpora#Google_Books_Liste>.
In der zweiten Spalte findest du die Häufigkeitsklasse.  "Näherung",
weil ich glaube, die Verschiebung von 0.5 laut Wikipedia-Formel nicht
berücksichtigt zu haben,
<URL:http://de.wikipedia.org/wiki/H%C3%A4ufigkeitsklasse>.  Die relative
Ordnung der Klassen ist davon aber nicht betroffen.  Ich glaube, die
Mannheimer Liste liegt noch mehr daneben (die liegt mir momentan aber
nicht vor).

Zu den Namen: Wie ich beim Testen von ck-Trennungen feststelle, sind
falsche Sondertrennungen noch deutlich störender als einfache falsche
Trennungen.  Das liegt wohl daran, dass das Wortbild bei falscher
Sondertrennung heftiger gestört wird.  Namen, die /beliebige/ ck
enthalten, sollten daher wohl bevorzugt aufgenommen werden.

Hier mal eine Liste mit einigen Verstümmelungen, die auf unzureichende
Muster (bisher lediglich "c1k") zurückzuführen sind:

> -kig Zik-k-zack Zuk-ker Zuk-ker-bäk-ker zwek-k-mä-ßig zwik-ke zwik-kst Bek-k
> s Bek-ky Bork-k-ward Bork-k-wart Bork-k-wardt Brok-k-dorf Brok-k-dorff Dik-kens
>  Dirk-k-sen Frank-ken Mak-ken-zie MK-Ken-zie Mak-kie Mes-ser Mek-k-len-burg P
> ük-k-ler Re-bek-ka Senk-ken-berg Vik-ki Vik-ky Wink-kel-mann Yorck York-ks Yor
> k-k-scher

Viele Grüße,
Stephan Hennig