[Trennmuster] Gla-cischaus-see

Stephan Hennig sh-list at posteo.net
Di Sep 20 23:04:39 CEST 2016


Am 20.09.2016 um 11:17 schrieb Guenter Milde:
> On 19.09.16, Stephan Hennig wrote:
> 
>> B. Der Einfluss auf die Trennung von nicht in der Liste enthaltenen
>> Wörtern ist nicht einfach einzuschätzen.  Letztlich halte ich diese
>> Frage auch für belanglos.  Die Trennmuster geben nur für in der Liste
>> enthaltene Wörter eine Trenngarantie.
> 
> Hier muss ich widersprechen: Gerade die (meist) korrekte Trennung nicht
> enthaltener Muster ist ein wesentlicher Vorteil des
> Liang-Trennalgorithmus (z.B. gegenüber einer wörterbuchbasierten
> Ersetzung).
> Und diese Generalisierung wird durch Einträge "atypischer" Trennungen
> durcheinandergebracht.

Wie Werner schon schrieb, was ist "atypisch"?


>> Kurzum, eine neue Menge von Wörtern die gegenüber der vorhandenen Menge
>> vernachlässigbar klein ist, kann keinen spürbar negativen Einfluss
>> haben, solange Patgen nicht die Grätsche macht. 
> 
> Nein. Bereits ein einziger Neueintrag kann dazu führen, dass eine große
> Gruppe bisher korrekt getrennter (aber nicht in der Wortliste geführter)
> Wörter falsch getrennt wird!
> 
> Das Dumme ist, wir können das nicht testen - da es ja die nicht in der
> Wortliste geführten Wörter betrifft.
> 
> Darum ist die Aufnahme seltener und "exotischer" Begriffe eben nicht
> "ungefährlich" solange nicht alle häufigeren Wörter explizit in der Liste
> sind.

Erstens, wenn man sich auf die Aussage beschränkt, dass die Muster nur
Trenngarantien für die Wörter aus der Liste geben, fällt jede
Gefährlichkeit neuer Wörter weg.  Andere Garantien können wir aber nicht
geben.  Oder?

Deiner Argumentation könnte man vielleicht bei von Hand erstellten
Mustern folgen, wo statt mit Patgen mit viel Sachverstand mit möglichst
wenigen Mustern möglichst viel Struktur der deutschen Silbentrennung
eingefangen wird.  Bei einem solchen Ansatz könnte man zurecht von
Trefferwahrscheinlichkeiten sprechen (die man durch Tests auch ermitteln
könnte).

Dieser Fall liegt bei uns aber nicht vor.  Im Gegenteil, durch die
schiere Menge sowohl an Eingabewörtern als auch an Ausgabemustern ist
relativ sicher, dass neue Wörter keine negativen Auswirkungen haben.

Zweitens, unsere Liste enthält "alle häufigen Wörter explizit".  Mit
Häufigkeitsklasse 19 oder 20 (welche war es?) der Mannheimer Liste kann
man das wohl so stehen lassen.

Drittens, um zum "atypisch" und "exotisch" zurückzukommen.  Wenn ein
Schwung fachsprachlicher, zum Beispiel pharmazeutischer Begriffe
dazukäme, dann würden sich diese aus Patgens Sicht recht sicher nicht
mit normalen deutschen Wörtern ins Gehege kommen, da der griechische
oder lateinische Ursprung recht signifikante Buchstabenfolgen mit sich
bringt (und dazu recht regeltreue Trennungen).  Das heißt, es würden
sich für diese Wörter gerade keine Konflikte ergeben, sondern
Mustergruppen, die nur von diesen Fachwörtern genutzt würden.  Bei
vielen Wörtern mit veralteter Schreibung (Theil, zwey; vergl. Datei
pre-1901) gilt ähnliches: hochsignifikant und ungefährlich.  "Exotische"
Wörter gehören zu den eher harmlosen.

Tatsächlich problematisch sind:

  * Homographe, bei denen wir die widersprüchlichen Trennungen ganz
    vermeiden (nach-tritt/Nacht-ritt).  Patgen bekommt dadurch aber
    Probleme, weil zu den Silbenpaaren nach/Nacht, die noch relativ
    einfach auseinanderzuhalten wären, eine dritte seltene und
    störende Gruppe von Wörtern kommt, bei denen weder 'nach-' noch
    'nacht-' getrennt wird, sondern überhaupt nicht (nachtritt).

    Alternativ könnte man diese Wörter gänzlich unberücksichtigt
    lassen und lediglich dokumentieren, welche Trennung Patgen
    schließlich wählt.

    Preisfrage: Welche Trennung wäre es bei diesem Beispiel?
    Zusatzfrage: Wie stabil ist diese Trennung?  Hat sich diese
    Trennung nach irgend einem Commit schon mal geändert?

  * Fremdwörter, bei denen die Trennung der ursprünglichen (Aus-)Sprache
    folgt (Lau-sanne ohne Trennung von nn).  Problematisch sind solche
    Wörter allerdings nur, wenn die (Nicht-)Trennung keine signifikante
    Buchstabenfolge umschließt, wie in diesem Beispiel.

  * (Mal wieder) irreführende und sinnentstellende Wörtern, bei denen
    formal gültige Trennungen unterdrückt werden.  Und zwar aufgrund
    von Regeln, für die Patgen blind ist, weil die Wortbedeutung eine
    Rolle spielt.

  * Weitere?

Insgesamt fallen die atypischen Wörter durch hohe Trennlevel auf.  Und
das sind dann auch die Kandidaten, die rausfliegen sollten, sollte
Patgen Probleme bekommen.  Ich würde mir aber nicht zutrauen, ein
bestimmtes Wort vorab als atypisch zu kategorisieren.  Das kann leicht
danebengehen.

Viele Grüße,
Stephan Hennig




Mehr Informationen über die Mailingliste Trennmuster