[Trennmuster] Gla-cischaus-see
Guenter Milde
milde at users.sf.net
Do Okt 13 22:37:57 CEST 2016
Liebe Trennmustler,
On 25.09.16, Stephan Hennig wrote:
> Am 22.09.2016 um 10:31 schrieb Guenter Milde:
> >> > ... die (meist) korrekte Trennung nicht enthaltener Muster ist ein
> >> > wesentlicher Vorteil des Liang-Trennalgorithmus (z.B. gegenüber
> >> > einer wörterbuchbasierten Ersetzung).
...
> > Aber die so schwer exakt zu fassende "Güte" von Trennmustern ist eben
> > auch davon bestimmt, wie die nicht garantierten Wörter getrennt werden.
Der Test mit den nicht in der Wortliste enthaltenen Einträgen in german.dict
ergibt ca. 90% korrekt getrennte Wörter.
...
> >> Zweitens, unsere Liste enthält "alle häufigen Wörter explizit". Mit
> >> Häufigkeitsklasse 19 oder 20 (welche war es?) der Mannheimer Liste kann
> >> man das wohl so stehen lassen.
> >
> > Das kann man überhaupt nicht stehen lassen, denn die Liste enthält eben
> > nicht *alle* häufigen Wörter und wir haben dies auch weder getestet noch
> > behauptet.
> Meinst du denn irgend welche konkreten Wörter? Oder spielst du darauf
> an, dass einzelne Textkorpora immer nur einen Teil der Wahrheit zeigen,
> die Menge der "häufigen Wörter" daraus jedoch so allgemein nicht
> ableitbar ist?
Der Abgleich mit german.dict liefert Beispiele. Unter den ca. 20 000
anders getrennten Einträgen sind etwa 1/3 "logisch" und "normal"
erscheinende Zusammensetzungen oder Ableitungen wie "Arterhalt" und
"Backaroma", die gegenwärtig falsch getrennt werden. Allerdings muß ich
zugeben, daß die Häufigkeitsklasse der Meisten von ihnen dann doch bei 19
bis 21 liegt. Aber z.B. "Barfrau" wird von
http://wortschatz.uni-leipzig.de/cgi-bin/wort_www.exe?site=1&Wort=Barfrau
mit Häufigkeitsklasse: 17 gelistet.
Soviel ich mich erinnere, ist die in der Dokumentation genannte
Häufigkeitsklasse keine "Aufnahmgarantie", sondern eine
"Ausschlussempfehlung".
> An Komposita hatte ich gar nicht gedacht. Ich denke nicht, dass wir
> durch Vergrößerung der Wortbasis an dieser Front viel erreichen können.
> Eben wegen der freien Kombinierbarkeit. Der Musteransatz wird dadurch
> ja einigermaßen ausgehebelt. Auch wenn weitere Muster nicht viel
> schaden, Muster aus Kompositabildungen tragen sehr spezielle Information
> und wenig zur allgemeinen Verbesserung der Trennqualität bei.
Aber gerade die Zusammensetzungen sind es, die gegenwärtig die meisten
Probleme bereiten - und mit gezielter, behutsamer Erweiterung der Wortliste
kann da m.E. schon noch einiges erreicht werden. Die Muster sind anders und
komplizierter als bei der Sprechsilbentrennung, aber dennoch nicht
vollkommen arbiträr.
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster