[Trennmuster] Gla-cischaus-see
Stephan Hennig
sh-list at posteo.net
So Sep 25 00:18:55 CEST 2016
[FQ+CC]
Am 22.09.2016 um 10:31 schrieb Guenter Milde:
> Liebe Trennmustler,
>
>
> On 20.09.16, Stephan Hennig wrote:
>> Am 20.09.2016 um 11:17 schrieb Guenter Milde:
>> > On 19.09.16, Stephan Hennig wrote:
>> >
>> >> B. Der Einfluss auf die Trennung von nicht in der Liste enthaltenen
>> >> Wörtern ist nicht einfach einzuschätzen. Letztlich halte ich diese
>> >> Frage auch für belanglos. Die Trennmuster geben nur für in der Liste
>> >> enthaltene Wörter eine Trenngarantie.
>> >
>> > Hier muss ich widersprechen: Gerade die (meist) korrekte Trennung nicht
>> > enthaltener Muster ist ein wesentlicher Vorteil des
>> > Liang-Trennalgorithmus (z.B. gegenüber einer wörterbuchbasierten
>> > Ersetzung).
>> > Und diese Generalisierung wird durch Einträge "atypischer" Trennungen
>> > durcheinandergebracht.
>
>> Wie Werner schon schrieb, was ist "atypisch"?
>
> s.u.
>
>> >> Kurzum, eine neue Menge von Wörtern die gegenüber der vorhandenen Menge
>> >> vernachlässigbar klein ist, kann keinen spürbar negativen Einfluss
>> >> haben, solange Patgen nicht die Grätsche macht.
>> >
>> > Nein. Bereits ein einziger Neueintrag kann dazu führen, dass eine große
>> > Gruppe bisher korrekt getrennter (aber nicht in der Wortliste geführter)
>> > Wörter falsch getrennt wird!
>> >
>> > Das Dumme ist, wir können das nicht testen - da es ja die nicht in der
>> > Wortliste geführten Wörter betrifft.
>> >
>> > Darum ist die Aufnahme seltener und "exotischer" Begriffe eben nicht
>> > "ungefährlich" solange nicht alle häufigeren Wörter explizit in der Liste
>> > sind.
>
>> Erstens, wenn man sich auf die Aussage beschränkt, dass die Muster nur
>> Trenngarantien für die Wörter aus der Liste geben, fällt jede
>> Gefährlichkeit neuer Wörter weg.
>> Andere Garantien können wir aber nicht geben. Oder?
>
> Richtig, auf "garantiert korrekt getrennte Wörter" (GKW) dürfte es keine
> Auswirkungen geben.
>
> Aber die so schwer exakt zu fassende "Güte" von Trennmustern ist eben
> auch davon bestimmt, wie die nicht garantierten Wörter getrennt werden.
>
>
>> Deiner Argumentation könnte man vielleicht bei von Hand erstellten
>> Mustern folgen, wo statt mit Patgen mit viel Sachverstand mit möglichst
>> wenigen Mustern möglichst viel Struktur der deutschen Silbentrennung
>> eingefangen wird. Bei einem solchen Ansatz könnte man zurecht von
>> Trefferwahrscheinlichkeiten sprechen (die man durch Tests auch ermitteln
>> könnte).
>
>> Dieser Fall liegt bei uns aber nicht vor.
>
> Ja, dieses Vorgehen ist bei z.B. den griechischen Trennmustern gewählt aber
> für Deutsch nicht.
>
>> Im Gegenteil, durch die schiere Menge sowohl an Eingabewörtern als auch
>> an Ausgabemustern ist relativ sicher, dass neue Wörter keine negativen
>> Auswirkungen haben.
>
> Das ist nicht gegeben, da ja eine große Menge "passender" Wörter durch
> patgen eben nicht zu vielen Mustern führt.
Hm, ich gehe davon aus, dass unsere Wortbasis eben nicht nur "passende"
Wörter enthält. Das heißt, sie leidet nicht unter systematischen
Mängeln, wie dem Fehlen von häufigen Wortstämmen oder Flexionen. Hast
du andere Erkenntnisse?
>> Zweitens, unsere Liste enthält "alle häufigen Wörter explizit". Mit
>> Häufigkeitsklasse 19 oder 20 (welche war es?) der Mannheimer Liste kann
>> man das wohl so stehen lassen.
>
> Das kann man überhaupt nicht stehen lassen, denn die Liste enthält eben
> nicht *alle* häufigen Wörter und wir haben dies auch weder getestet noch
> behauptet.
Meinst du denn irgend welche konkreten Wörter? Oder spielst du darauf
an, dass einzelne Textkorpora immer nur einen Teil der Wahrheit zeigen,
die Menge der "häufigen Wörter" daraus jedoch so allgemein nicht
ableitbar ist?
>> Drittens, um zum "atypisch" und "exotisch" zurückzukommen. Wenn ein
>> Schwung fachsprachlicher, zum Beispiel pharmazeutischer Begriffe
>> dazukäme, dann würden sich diese aus Patgens Sicht recht sicher nicht
>> mit normalen deutschen Wörtern ins Gehege kommen, da der griechische
>> oder lateinische Ursprung recht signifikante Buchstabenfolgen mit sich
>> bringt (und dazu recht regeltreue Trennungen). Das heißt, es würden
>> sich für diese Wörter gerade keine Konflikte ergeben, sondern
>> Mustergruppen, die nur von diesen Fachwörtern genutzt würden.
>
> Bei hinreichend großer Zahl gleichartiger (z.B. griechischer oder
> englischer) Einträge wird patgen entsprechende Regelmäßigkeiten nutzen.
>
> Problematisch wird das dann, wenn diese Regelmäßigkeit im Konflikt mit der
> Trennung eines nichteingetragenen Kompositums steht, wo diese
> Buchstabenfolge über die Wortgrenze hinweg vorkommt.
>
> Ich denke da an Sachen wie (die nicht griechisch bedingte) Heil-stat(!).
>
> Und gerade bei Komposita ist die Zahl von Neubildungen hoch und die
> Erwartung an eine korrekte Trennung auch.
An Komposita hatte ich gar nicht gedacht. Ich denke nicht, dass wir
durch Vergrößerung der Wortbasis an dieser Front viel erreichen können.
Eben wegen der freien Kombinierbarkeit. Der Musteransatz wird dadurch
ja einigermaßen ausgehebelt. Auch wenn weitere Muster nicht viel
schaden, Muster aus Kompositabildungen tragen sehr spezielle Information
und wenig zur allgemeinen Verbesserung der Trennqualität bei.
>
> ...
>
>> Tatsächlich problematisch sind:
>
>> * Homographe, bei denen wir die widersprüchlichen Trennungen ganz
>> vermeiden (nach-tritt/Nacht-ritt). Patgen bekommt dadurch aber
>> Probleme, weil zu den Silbenpaaren nach/Nacht, die noch relativ
>> einfach auseinanderzuhalten wären, eine dritte seltene und
>> störende Gruppe von Wörtern kommt, bei denen weder 'nach-' noch
>> 'nacht-' getrennt wird, sondern überhaupt nicht (nachtritt).
>
>> Alternativ könnte man diese Wörter gänzlich unberücksichtigt
>> lassen und lediglich dokumentieren, welche Trennung Patgen
>> schließlich wählt.
>
> Das Problem ist, dass die gewählte Trennung von der Häufigkeit ähnlicher
> Wörter in der patgen-Eingabe abhängt, die gewünschte Trennung aber von der
> Häufigkeit der Homonyme (ich bevorzuge Bahnhof=strasse gegenüber
> Bahnhofs=trasse).
Man kann Wörter (und einzelne Trennungen) in der Patgeneingabe wichten.
Vielleicht sollten wir das Gewicht aller Wörter künstlich verdoppeln,
bis auf das der bekanntermaßen schwierigen Wörter?
>
>> Preisfrage: Welche Trennung wäre es bei diesem Beispiel?
>> Zusatzfrage: Wie stabil ist diese Trennung? Hat sich diese
>> Trennung nach irgend einem Commit schon mal geändert?
>
> Es müsste doch eher heißen "... hätte sich diese Trennung ... geändert".
> und wer kann das schon beantworten.
Hat, ich meinte die von den Muster schließlich gewählte Trennung, wenn
beide Trennvarianten nicht in der Patgeneingabe vorkommen. (Die Fragen
waren aber nicht ganz ernst gemeint.)
>
>> * Fremdwörter, bei denen die Trennung der ursprünglichen (Aus-)Sprache
>> folgt (Lau-sanne ohne Trennung von nn). Problematisch sind solche
>> Wörter allerdings nur, wenn die (Nicht-)Trennung keine signifikante
>> Buchstabenfolge umschließt, wie in diesem Beispiel.
>
> Wie gesagt, auch "signifikante" Buchstabenfolgen können an Wortfugen von
> Komposita außerhalb dieses Kontexts auftreten.
S. o. Komposita hatte ich gar nicht auf dem Schirm. Leider stößt der
Musteransatz bei diesem Problem vermutlich an seine Grenzen.
>
>> * (Mal wieder) irreführende und sinnentstellende Wörtern, bei denen
>> formal gültige Trennungen unterdrückt werden. Und zwar aufgrund
>> von Regeln, für die Patgen blind ist, weil die Wortbedeutung eine
>> Rolle spielt.
>
>> * Weitere?
>
>> Insgesamt fallen die atypischen Wörter durch hohe Trennlevel auf. Und
>> das sind dann auch die Kandidaten, die rausfliegen sollten, sollte
>> Patgen Probleme bekommen. Ich würde mir aber nicht zutrauen, ein
>> bestimmtes Wort vorab als atypisch zu kategorisieren. Das kann leicht
>> danebengehen.
>
> Vielleicht kann ein "Güteexperiment" willkürliche Wortzusammensetzungen
> testen.
Eine Idee, von der ich nicht weiß, ob sie mal weiterverfolgt wurde:
Bisher verwenden wir left/righthyphenmin=2 in patgen, so dass keine
Muster für die Verhinderung von Trennungen an Wortenden erzeugt werden.
Gerade solche Muster, induziert durch einfache Wortformen, könnten aber
Fehltrennungen in Komposita vermeiden. Momentan verwerfen wir einen
Teil der Information über Wortenden.
Viele Grüße,
Stephan Hennig
Mehr Informationen über die Mailingliste Trennmuster