[Trennmuster] Warum nicht sisisi

Fr Nov 29 20:56:49 CET 2013

Am 29.11.2013 20:41, schrieb Stephan Hennig:
> Am 29.11.2013 18:00, schrieb Herbert Voss:
>
>> Kurzum: Es würde viel mehr Sinn machen, eine Kombination aus patgen
>> und einem neuentwickelten SiSiSi (X) zu haben.
>> [...]
>> Für patgen selbst braucht man dabei keine besonders umfangreiche
>> Liste.
>
> Sondern?  Führe das mal bitte weiter aus.

Es gibt keinerlei Untersuchungen über die Qualität der Trennmuster
in Bezug auf den zugrundeliegenden Datenbestand. Sollte man die
Wörter zufällig wählen, sollte es ein Mix aus kurz oder lang sein,
sollte es ein Mix aus Umgangssprache oder Fachsprache sein, oder
sollte es eher kurze oder lange Muster, oder ...

Wenn ich es richtig im Kopf habe, besteht die englische Datei
aus ca 50 Tsnd Wörtern. Gut, Deutsch ist etwas anders :-)
Aber aus meinen Spielereien mit PaTgen schließe ich, dass man
ab 200 000 richtig getrennten Wörtern keine wesentliche
Verbesserung der Trennmuster wird erzeugen können. Falsche
Trennungen über eine Ausnahmeliste zu erfassen, erscheint mir
sinnvoller, als den Datenbestand permanent zu erhöhen. Der
Vorteil des wahrscheinlichkeitsbasierten Verfahrens ist ja
gerade die Tatsache, dass ich keinen großen Datenbestand brauche.

Und die optimale Lösung wäre ein SiSiSi, welches eure erstelle
Wortliste als Grundlage nimmt und die Wörter in die von mir
erwähnte Form bringt. Aber das sagte ich ja schon ... Eine
Pearl/Python/was-auch-immer Lösung erscheint mir sinnvoller.
Mit LuaTeX könnte man es integrieren, aber LuaTeX ist jetzt
schon grottenlangsam ...

Herbert