[Trennmuster] Datenstruktur

Georg Pfeiffer gp at praetor.de
Mi Apr 2 11:10:54 CEST 2014


Werner LEMBERG <wl at gnu.org> writes:

> Schau Dir bitte an, wie »ispell« und Konsorten die Daten
> repräsentiert:
>
>   http://www.j3e.de/ispell/igerman98/dict/
>
> Vielleicht kann man soetwas in dieser Art verwenden.  Beachte aber,
> daß die von diesen Regeln erzeugte Wortliste *viel* zu viele
> Fehlwörter enthält.

Ja, ispell ist offenbar nicht fertig geworden. Ich habe mir die
igerman98-20131206.tar.bz2 gezogen und ins dicts-Verzeichnis
geschaut. In vielen „Wortkategoriedateien” stehen nur ein oder zwei
Worte drin. Das sollten wahrscheinlich einmal mehr werden. Die Auswahl
der thematischen Kategorien mutet ziemlich zufällig an. Ich bin
überzeugt, wir könnten das besser. Aber natürlich müssen wir die
Aufteilung in Kategorien ganz am Anfang gründlich durchdenken.

Was mir nicht klar ist, ist, wie wir von solchen Daten zur Trennung
kommen. Erzeugen wir daraus eine Megaliste und lassen patgen darauf los?
Oder entwickeln wir einen anderen Muster-Generator? Oder knicken wir
diesen Ansatz, erzeugen jedenfalls die Haupttrennstellen mit einem
anderen Algorithmus? Auf die verbleibenden Wortschnipsel kann man
wahrscheinlich Muster nicht mehr zuverlässig anwenden, weil die zu wenig
Kontextinformationen finden, wenn TeX nicht mehr über die schon
gesetzten Trennstellen hinausblickt…

Fragen über Fragen, ich bin nicht sicher, ob sie zu einer Lösung
hinführen, aber gestellt müssen sie werden.

Gruß
Georg




Mehr Informationen über die Mailingliste Trennmuster