[Trennmuster] Gla-cischaus-see
Werner LEMBERG
wl at gnu.org
So Sep 25 17:13:45 CEST 2016
>> Und gerade bei Komposita ist die Zahl von Neubildungen hoch und die
>> Erwartung an eine korrekte Trennung auch.
>
> An Komposita hatte ich gar nicht gedacht. Ich denke nicht, dass wir
> durch Vergrößerung der Wortbasis an dieser Front viel erreichen
> können. Eben wegen der freien Kombinierbarkeit. Der Musteransatz
> wird dadurch ja einigermaßen ausgehebelt. Auch wenn weitere Muster
> nicht viel schaden, Muster aus Kompositabildungen tragen sehr
> spezielle Information und wenig zur allgemeinen Verbesserung der
> Trennqualität bei.
Da bin ich anderer Ansicht. Die Größe der Trennmuster ist nur schwach
steigend; es spricht also nichts dagegen, noch mehr viel mehr
Komposita zu integrieren, um so die Abdeckung zu verbreitern.
Natürlich erreichen wir nie 100%, aber Verbesserungen sind auf jeden
Fall noch möglich.
>> Das Problem ist, dass die gewählte Trennung von der Häufigkeit
>> ähnlicher Wörter in der patgen-Eingabe abhängt, die gewünschte
>> Trennung aber von der Häufigkeit der Homonyme (ich bevorzuge
>> Bahnhof=strasse gegenüber Bahnhofs=trasse).
>
> Man kann Wörter (und einzelne Trennungen) in der Patgeneingabe
> wichten. Vielleicht sollten wir das Gewicht aller Wörter künstlich
> verdoppeln, bis auf das der bekanntermaßen schwierigen Wörter?
Es wäre durchaus überlegenswert, bei den [.../...]-Konstruktionen die
bevorzugte Trennung stets vor das »/«-Zeichen zu stellen – machen wir
das nicht schon?
> Eine Idee, von der ich nicht weiß, ob sie mal weiterverfolgt wurde:
> Bisher verwenden wir left/righthyphenmin=2 in patgen, so dass keine
> Muster für die Verhinderung von Trennungen an Wortenden erzeugt
> werden. Gerade solche Muster, induziert durch einfache Wortformen,
> könnten aber Fehltrennungen in Komposita vermeiden. Momentan
> verwerfen wir einen Teil der Information über Wortenden.
Ich hab' auch keine Ahnung, ob das zielführend ist, aber falls Du Zeit
hast, probier's doch aus und berichte bitte von Experimenten mit
reduzierten left/righthyphenmin-Werten!
Werner
Mehr Informationen über die Mailingliste Trennmuster