[Trennmuster] Warum nicht sisisi

Herbert Voss Herbert.Voss at FU-Berlin.DE
Do Dez 5 21:32:35 CET 2013


Am 05.12.2013 12:51, schrieb Guenter Milde:

> * Ich sehe die "Wortliste" als eine (potentielle) Grundlage für eine
>    Vielzahl an Trennalgorithmen oder ähnlichen Anwendungen. Egal ob für
>    patgen oder sisisi mit TeX oder LuaTeX oder sonstwas für OpenOffice
>    oder Abiword - immer ist eine gute Datenbank von korrekten Trennungen
>    der Grundstock für gute Ergebnisse.

Sicher; dazu gibt es keine Alternative, solange keiner einen
mathematischen Zusammenhang bestimmen kann.

> * Alternativ zum gegenwärtigen patgen und den dazu existierenden
>    preprocessing Skripten könnte ein anderes Werkzeug Daten für einen freien
>    SiSiSi Nachfolger erzeugen -- falls irgendwann jemand so einen
>    Trennalgorithmus schreibt.

Für textlastige Dokumente, also ohne eine Vielzahl an Makros im 
laufenden Text, ist das geradezu trivial. Jedenfalls aus meiner
Sicht.

> * Weniger aufwendig ist die Erzeugung von Alternativtrennmustern wie
>    "nur Haupttrennstellen" oder ähnlichem.

das könnte man ja alles über Optionen festlegen.

> Wenn ich den gegenwärtigen TeX-Algorithmus richtig verstehe, dann werden
> "redundante" Wörter in der "Wortliste" (d.h. solche, die auch ohne separaten
> Eintrag korrekt getrennt werden) bei der Umwandlung in "pattern" mit patgen
> sowieso herausgefiltert. Der TeX Anwender ist mit den > 400000
> Einträgen der "Wortliste" nicht konfrontiert.

natürlich nicht, aber PatGen legt sich irgendwann die Karten,
denn es wurde damals nicht für derartig große Dateien entwickelt.
Die Philosophie ist ja gerade _kleine_ Datenbestände als Grundlage
zu haben.

> Es ist also "unschädlich", die Wortliste um korrekte Wörter zu ergänzen,
> denn es gibt die zwei Fälle
>
>   a) Wort wird schon richtig getrennt -> pattern bleiben gleich

Jein, denn die Wahrscheinlichkeit kann sich ändern.

>   b) Wort wurde falsch getrennt -> pattern ändern sich aus gutem Grund
>
> Es gibt noch Fall
>
>   b2) bisher richtig getrennte, nicht in der "Wortliste" erfasste Wörter werden
>       jetzt falsch getrennt.

_sehr_  unwahrscheinlich

Eine LuaTeX-Implementation wird schwierig werden, denn LuaTeX ist jetzt
schon _erheblich_ langsamer als pdfTeX.

Herbert



Mehr Informationen über die Mailingliste Trennmuster