[Trennmuster] Warum nicht sisisi

Guenter Milde milde at users.sf.net
Do Dez 5 12:51:51 CET 2013


Liebe Trennmustler, lieber Herbert,

als ich zur Trennmustergruppe kam dachte ich auch zunächst, daß SiSiSi die
optimale Lösung für deutsche Silbentrennung sein müßte. Inzwischen sehe ich
das etwas anders:

* Die mit sisisi gefundenen Haupt- vs. Nebentrennstellen bildeten die
  Grundlage für die Kategorisierung der Trennstellen wie sie jetzt in der
  Wortliste implementiert (aber noch nicht abgeschlossen) ist.

* Die letzte freie Version von sisisi lieferte sehr viele falsche
  Kategorisierungen. Bei einer einfachen Suche nach Trennstellen ist das
  vielleicht egal, bei der Unterscheidung von Haupt- und Nebentrennstellen
  wie sie für eine "ästhetische" Trennung und für die Lang-S Schreibung
  benötigt werden nicht.
  
* Das könnte besser werden, wenn die Datenbasis verbessert wird, aber
  anstatt sisisi-Spezialdaten zu erweitern, habe ich mich darauf verlegt
  die "Wortliste" zu verbessern.
  
* Ich sehe die "Wortliste" als eine (potentielle) Grundlage für eine
  Vielzahl an Trennalgorithmen oder ähnlichen Anwendungen. Egal ob für
  patgen oder sisisi mit TeX oder LuaTeX oder sonstwas für OpenOffice
  oder Abiword - immer ist eine gute Datenbank von korrekten Trennungen
  der Grundstock für gute Ergebnisse.

* Alternativ zum gegenwärtigen patgen und den dazu existierenden
  preprocessing Skripten könnte ein anderes Werkzeug Daten für einen freien
  SiSiSi Nachfolger erzeugen -- falls irgendwann jemand so einen
  Trennalgorithmus schreibt.

* Weniger aufwendig ist die Erzeugung von Alternativtrennmustern wie
  "nur Haupttrennstellen" oder ähnlichem.
  
Wenn ich den gegenwärtigen TeX-Algorithmus richtig verstehe, dann werden
"redundante" Wörter in der "Wortliste" (d.h. solche, die auch ohne separaten
Eintrag korrekt getrennt werden) bei der Umwandlung in "pattern" mit patgen
sowieso herausgefiltert. Der TeX Anwender ist mit den > 400000
Einträgen der "Wortliste" nicht konfrontiert.

Es ist also "unschädlich", die Wortliste um korrekte Wörter zu ergänzen,
denn es gibt die zwei Fälle
 
 a) Wort wird schon richtig getrennt -> pattern bleiben gleich
 
 b) Wort wurde falsch getrennt -> pattern ändern sich aus gutem Grund
 
Es gibt noch Fall 

 b2) bisher richtig getrennte, nicht in der "Wortliste" erfasste Wörter werden
     jetzt falsch getrennt.

Das kann aber nur im Fall b) vorkommen und ist eher ein Argument mehr,
die Ausgangsdatenbank "Wortliste" möglichst vollständig zu haben: Wörter
die explizit in der "Wortliste" sind, sind vor "falschwerden" sicher.

Günter



 

 
  



Mehr Informationen über die Mailingliste Trennmuster