[Trennmuster] Warum nicht sisisi
Herbert Voss
Herbert.Voss at FU-Berlin.DE
Do Dez 5 21:32:35 CET 2013
Am 05.12.2013 12:51, schrieb Guenter Milde:
> * Ich sehe die "Wortliste" als eine (potentielle) Grundlage für eine
> Vielzahl an Trennalgorithmen oder ähnlichen Anwendungen. Egal ob für
> patgen oder sisisi mit TeX oder LuaTeX oder sonstwas für OpenOffice
> oder Abiword - immer ist eine gute Datenbank von korrekten Trennungen
> der Grundstock für gute Ergebnisse.
Sicher; dazu gibt es keine Alternative, solange keiner einen
mathematischen Zusammenhang bestimmen kann.
> * Alternativ zum gegenwärtigen patgen und den dazu existierenden
> preprocessing Skripten könnte ein anderes Werkzeug Daten für einen freien
> SiSiSi Nachfolger erzeugen -- falls irgendwann jemand so einen
> Trennalgorithmus schreibt.
Für textlastige Dokumente, also ohne eine Vielzahl an Makros im
laufenden Text, ist das geradezu trivial. Jedenfalls aus meiner
Sicht.
> * Weniger aufwendig ist die Erzeugung von Alternativtrennmustern wie
> "nur Haupttrennstellen" oder ähnlichem.
das könnte man ja alles über Optionen festlegen.
> Wenn ich den gegenwärtigen TeX-Algorithmus richtig verstehe, dann werden
> "redundante" Wörter in der "Wortliste" (d.h. solche, die auch ohne separaten
> Eintrag korrekt getrennt werden) bei der Umwandlung in "pattern" mit patgen
> sowieso herausgefiltert. Der TeX Anwender ist mit den > 400000
> Einträgen der "Wortliste" nicht konfrontiert.
natürlich nicht, aber PatGen legt sich irgendwann die Karten,
denn es wurde damals nicht für derartig große Dateien entwickelt.
Die Philosophie ist ja gerade _kleine_ Datenbestände als Grundlage
zu haben.
> Es ist also "unschädlich", die Wortliste um korrekte Wörter zu ergänzen,
> denn es gibt die zwei Fälle
>
> a) Wort wird schon richtig getrennt -> pattern bleiben gleich
Jein, denn die Wahrscheinlichkeit kann sich ändern.
> b) Wort wurde falsch getrennt -> pattern ändern sich aus gutem Grund
>
> Es gibt noch Fall
>
> b2) bisher richtig getrennte, nicht in der "Wortliste" erfasste Wörter werden
> jetzt falsch getrennt.
_sehr_ unwahrscheinlich
Eine LuaTeX-Implementation wird schwierig werden, denn LuaTeX ist jetzt
schon _erheblich_ langsamer als pdfTeX.
Herbert
Mehr Informationen über die Mailingliste Trennmuster