[Trennmuster] Warum nicht sisisi

Werner LEMBERG wl at gnu.org
Fr Nov 29 22:23:21 CET 2013


> SiSiSi als Idee ist geradezu prädestiniert für das, was ihr macht:
> Eine Liste zu erstellen mit gewichteten Trennungen.  Dagegen ist die
> Anwendung von patgen irgendwann nicht mehr sinnvoll.  Nämlich dann,
> wenn Eure Liste über 1 Million Wörter haben sollte.  patgen ist ja
> so aufgebaut, dass es mindestens die Wörter der Liste richtig trennt
> und den Rest über die Wahrscheinlichkeit erledigt.  Irgendwann
> rechnet es sich bei sehr großen Listen zutode ohne dass die korrekte
> Trennwahrscheinlichkeit der _nicht in der Liste vorhanden_ Wörter
> steigt.

Naja, »zu Tode« ist leicht übertrieben.  Die Liste an sich ist *sehr
wohl* sinnvoll.  Man kann da vielleicht hier und da noch optimieren,
indem man beispielsweise Präfixe, Suffixe oder Teilwörter sammelt.
Aber die Validität eines (zusammengesetzten) Worts kann man aus
solchen Teillisten nicht ableiten, sondern bloß etwaige Komponenten
bunt zusammenwürfeln.

Wahrscheinlich hast Du recht, was die Trennwahrscheinlichkeit der
nicht enthaltenen Wörter betrifft.  Allerdings bedeutet mehr Wörter in
der Liste eine höhere Wahrscheinlichkeit, daß ein zu trennendes Wort
bereits erfaßt ist un sich in der Liste befindet.

Im übrigen wird die Liste von patgen fehlerfrei verarbeitet, und alle
Trennstellen werden korrekt wiedergegeben.

> Kurzum: Es würde viel mehr Sinn machen, eine Kombination aus patgen
> und einem neuentwickelten SiSiSi (X) zu haben.  Erst geht X über den
> TeX-Quelltext und fügt Trennungen in der Form "Auto\-mecha\-niker"
> ein, sodass andere dann nicht mehr möglich sind. Wörter, die von X
> nicht getrennt werden können, weil nicht in der Liste vorhanden,
> müssen von den mit patgen erstellten Trennmusterlisten erledigt
> werden.  Für patgen selbst braucht man dabei keine besonders
> umfangreiche Liste.

Ich fühle mich nicht berufen, so einen Algorithmus zu schreiben, aber
vielleicht kannst Du das Team von luatex dazu bringen, in dieser
Richtung aktiv zu werden.  Bis dahin werde ich versuchen, weiter an
der Liste zu arbeiten und die Einträge zu korrigieren und zu
optimieren.


    Werner


Mehr Informationen über die Mailingliste Trennmuster