[Trennmuster] Kombinationen mit s-Genitiv

Guenter Milde milde at users.sf.net
Do Jan 23 21:39:54 CET 2014


On 23.01.14, Tobias Wendorff wrote:

> es gibt ja bestimmte Wörter, die gleich aufgebaut werden, z.B.
> "-sanleihe" oder "-sanlage" oder "-santeil".

Meinst Du das Bindungs-s? Das ist kein Genitiv-s. 

Und natürlich ist die Trennung (mit Panders Auszeichnungszeichenset)
-s=an|lei~he, -s=an|la~ge,

> Für einen neuen Algorithmus wäre es ja im Endeffekt sinnvoll, dies
> automatisch zu erkennen.

Ich verwende die Kenntniss über das Bindungs-s bei der Analyse der
"wortliste", um Wortverbindungen aufzuspüren bzw. nach Fehlern zu schauen.
Da wird bei der Suche nach Teilwörtern auch mit ``$wort + "s"`` verglichen.

Ob und wie ein alternativer Trennalgorithmus daraus "schlau" werden kann
sehe ich noch nicht so richtig. Die Anzahl von falschen Treffern ist sehr
hoch.

Der derzeitige TeX-Trennalgorithmus hat ja die Besonderheit, daß die
Effizienz nicht auf Vorkenntnissen über die Sprache beruht, womit er ohne
Änderungen für viele Sprachen einzusetzen geht.

Es gibt die interessante Möglichkeit, einen Mustersatz iterativ zu
erstellen, d.h. `patgen` mit einem generierten Mustersatz und einer
"Wortliste" zu starten: der Mustersatz wird dann um die Muster erweitert,
die nötig sind die Wortliste korrekt zu trennen. 
Mich würde interessieren, ob es für die deutschen Trennmuster vor- oder
nachteilhaft ist, wenn zunächst nur Muster mit Haupttrennstellen erzeugt
werden oder ggf. andersherum (zunächst nur Muster für Einzelwörter, im
zweiten Durchlauf dann auch Wortverbindungen).

Viele Grüße

Günter



Mehr Informationen über die Mailingliste Trennmuster