[Trennmuster] Titeltränen

Tobias Wendorff tobias.wendorff at tu-dortmund.de
Mo Mai 23 05:25:03 CEST 2016


Am So, 22.05.2016, 15:02 schrieb Guenter Milde:
> Ich dachte, wir haben eine Richtlinie für die Mindesthäufigkeitsklasse
> eines Wortes.

Ich dachte, diese Richtlinie würde für die automatische Übernahme von
Wörtern aus Google Books & Co. Anwendung finden. So könnte man über die
Häufigkeit die Rechtschreibung und den Verwendungsgrad ermitteln.

> Titeltränen sind allerdings bei wortschatz.uni-leipzig.de gleich gar nicht
> gelistet.

Muss ich da wohl mal melden ;)
Ich denke aber auch nicht, dass die die Bild-Zeitung mit aufnehmen und
selbst wenn FAZ & Co. es auch verwenden, kommt es sicher erst Ende des
Jahres in die Datenbank.

> BTW: wird es zur Zeit falsch getrennt?

Ich denke, dass es korrekt getrennt wird. Ich dachte nur, dass die
Treffgenauigkeit erhöhen würde, wenn man explizit darauf hinweist, dass
es sich um zwei Nomen handelt.

Der aktuelle Algorithmus erkennt ja nicht, ob es zwei Grundwörter sind,
nur weil sie in zwei Zeilen stehen: "Titel" und "Träne(n)". würde man
"Ti-tel=trä-nen" aufnehmen, wüsste der Algorithmus, dass es eine
Gewichtung zwischen den beiden Wörtern gibt. Okay, beim Tippen merke
ich gerade (ohne nachzusehen), dass wir die hier sicher auch schon
drin haben: "Freudentränen", "Krokodilstränen" - nicht wahr? :D

Alternative:
Wäre es okay, wenn ich einen Branch der Wortliste mit "Gegenwartssprache"
einrichte?




Mehr Informationen über die Mailingliste Trennmuster