[Trennmuster] Kombinationen mit s-Genitiv
Guenter Milde
milde at users.sf.net
So Jan 26 20:20:38 CET 2014
On 23.01.14, Tobias Wendorff wrote:
> Am 23.01.2014 21:39, schrieb Guenter Milde:
> >Und natürlich ist die Trennung (mit Panders Auszeichnungszeichenset)
> >-s=an|lei~he, -s=an|la~ge,
> Ist das jetzt unser neuer Syntax?
Nein, ich habe den (sic.) von Pander vorgeschlagenen Trnnzeichensatz
verwendet, um den Bindestrich als Koppelstrich verwenden zu können.
> >Der derzeitige TeX-Trennalgorithmus hat ja die Besonderheit, daß die
> >Effizienz nicht auf Vorkenntnissen über die Sprache beruht, womit er ohne
> >Änderungen für viele Sprachen einzusetzen geht.
> Yop, dafür muss die Wortliste ja möglichst vollständig sein.
> Du hast Recht, eine Optimierung wäre hier eigentlich blöd, da das
> Ganze ziemlich effizient läuft.
> >Es gibt die interessante Möglichkeit, einen Mustersatz iterativ zu
> >erstellen, d.h. `patgen` mit einem generierten Mustersatz und einer
> >"Wortliste" zu starten: der Mustersatz wird dann um die Muster erweitert,
> >die nötig sind die Wortliste korrekt zu trennen.
> Und dann mit der Ursprungsliste vergleichen, ob das mit dem iterativen
> Ansatz funktioniert hat?
> >Mich würde interessieren, ob es für die deutschen Trennmuster vor- oder
> >nachteilhaft ist, wenn zunächst nur Muster mit Haupttrennstellen erzeugt
> >werden oder ggf. andersherum (zunächst nur Muster für Einzelwörter, im
> >zweiten Durchlauf dann auch Wortverbindungen).
> Wie könnte man das denn sinnvoll benchmarken?
Mit einem Blick auf die generierten "pattern": wie viele Muster und wie
viele "level" sind nötig, um die Wortliste korrekt zu trennen.
Ein weiterer sinnvoller (aber nicht so einfacher) Test wäre die Korrektheit
von Trennungen nicht in der Liste enthaltener Wörter.
mfG
Günter
Mehr Informationen über die Mailingliste Trennmuster