[Trennmuster] Gla-cischaus-see
Guenter Milde
milde at users.sf.net
Di Sep 20 11:17:25 CEST 2016
On 19.09.16, Stephan Hennig wrote:
> Am 19.09.2016 um 20:02 schrieb Tobias Wendorff:
> > Ich nutze die Trennmuster ja auch für Stadtpläne und behandle die
> > Endungen von Straßen getrennt (eben weil mir auch solche Probleme
> > aufgefallen sind).
> >
> > Würde sich eine Aufnahme in die Liste denn vielleicht (statistisch)
> > negativ auf andere Trennungen auswirken?
> A. Auf die Trennung von in der Liste enthaltenen Wörtern kann sich ein
> neues Wort auf zweierlei Arten auswirken:
> 1. Patgen kann keine widerspruchsfreien Muster mehr erzeugen.
> 2. Die Anzahl der auf ein (beliebiges) Wort passenden Muster ändert
> sich. (Sofern 1. nicht zutrifft, bleibt dies jedoch ohne Auswirkung
> auf die Trennung.)
...
-> ergo: nennenswerte Auswirkungen für in der Wortliste gelistete Wörter
gibt es höchstens für die Erzeugung der Muster, nicht bei der
Nutzung.
> B. Der Einfluss auf die Trennung von nicht in der Liste enthaltenen
> Wörtern ist nicht einfach einzuschätzen. Letztlich halte ich diese
> Frage auch für belanglos. Die Trennmuster geben nur für in der Liste
> enthaltene Wörter eine Trenngarantie.
Hier muss ich widersprechen: Gerade die (meist) korrekte Trennung nicht
enthaltener Muster ist ein wesentlicher Vorteil des
Liang-Trennalgorithmus (z.B. gegenüber einer wörterbuchbasierten
Ersetzung).
Und diese Generalisierung wird durch Einträge "atypischer" Trennungen
durcheinandergebracht.
> Kurzum, eine neue Menge von Wörtern die gegenüber der vorhandenen Menge
> vernachlässigbar klein ist, kann keinen spürbar negativen Einfluss
> haben, solange Patgen nicht die Grätsche macht.
Nein. Bereits ein einziger Neueintrag kann dazu führen, dass eine große
Gruppe bisher korrekt getrennter (aber nicht in der Wortliste geführter)
Wörter falsch getrennt wird!
Das Dumme ist, wir können das nicht testen - da es ja die nicht in der
Wortliste geführten Wörter betrifft.
Darum ist die Aufnahme seltener und "exotischer" Begriffe eben nicht
"ungefährlich" solange nicht alle häufigeren Wörter explizit in der Liste
sind.
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster