[Trennmuster] Warum nicht sisisi
Guenter Milde
milde at users.sf.net
Do Dez 5 12:51:51 CET 2013
Liebe Trennmustler, lieber Herbert,
als ich zur Trennmustergruppe kam dachte ich auch zunächst, daß SiSiSi die
optimale Lösung für deutsche Silbentrennung sein müßte. Inzwischen sehe ich
das etwas anders:
* Die mit sisisi gefundenen Haupt- vs. Nebentrennstellen bildeten die
Grundlage für die Kategorisierung der Trennstellen wie sie jetzt in der
Wortliste implementiert (aber noch nicht abgeschlossen) ist.
* Die letzte freie Version von sisisi lieferte sehr viele falsche
Kategorisierungen. Bei einer einfachen Suche nach Trennstellen ist das
vielleicht egal, bei der Unterscheidung von Haupt- und Nebentrennstellen
wie sie für eine "ästhetische" Trennung und für die Lang-S Schreibung
benötigt werden nicht.
* Das könnte besser werden, wenn die Datenbasis verbessert wird, aber
anstatt sisisi-Spezialdaten zu erweitern, habe ich mich darauf verlegt
die "Wortliste" zu verbessern.
* Ich sehe die "Wortliste" als eine (potentielle) Grundlage für eine
Vielzahl an Trennalgorithmen oder ähnlichen Anwendungen. Egal ob für
patgen oder sisisi mit TeX oder LuaTeX oder sonstwas für OpenOffice
oder Abiword - immer ist eine gute Datenbank von korrekten Trennungen
der Grundstock für gute Ergebnisse.
* Alternativ zum gegenwärtigen patgen und den dazu existierenden
preprocessing Skripten könnte ein anderes Werkzeug Daten für einen freien
SiSiSi Nachfolger erzeugen -- falls irgendwann jemand so einen
Trennalgorithmus schreibt.
* Weniger aufwendig ist die Erzeugung von Alternativtrennmustern wie
"nur Haupttrennstellen" oder ähnlichem.
Wenn ich den gegenwärtigen TeX-Algorithmus richtig verstehe, dann werden
"redundante" Wörter in der "Wortliste" (d.h. solche, die auch ohne separaten
Eintrag korrekt getrennt werden) bei der Umwandlung in "pattern" mit patgen
sowieso herausgefiltert. Der TeX Anwender ist mit den > 400000
Einträgen der "Wortliste" nicht konfrontiert.
Es ist also "unschädlich", die Wortliste um korrekte Wörter zu ergänzen,
denn es gibt die zwei Fälle
a) Wort wird schon richtig getrennt -> pattern bleiben gleich
b) Wort wurde falsch getrennt -> pattern ändern sich aus gutem Grund
Es gibt noch Fall
b2) bisher richtig getrennte, nicht in der "Wortliste" erfasste Wörter werden
jetzt falsch getrennt.
Das kann aber nur im Fall b) vorkommen und ist eher ein Argument mehr,
die Ausgangsdatenbank "Wortliste" möglichst vollständig zu haben: Wörter
die explizit in der "Wortliste" sind, sind vor "falschwerden" sicher.
Günter
Mehr Informationen über die Mailingliste Trennmuster