[Trennmuster] Warum nicht sisisi

Di Dez 10 10:20:28 CET 2013

On  5.12.13, Herbert Voss wrote:
> Am 05.12.2013 12:51, schrieb Guenter Milde:

> >* Alternativ zum gegenwärtigen patgen und den dazu existierenden
> >  preprocessing Skripten könnte ein anderes Werkzeug Daten für einen
> >  freien SiSiSi Nachfolger erzeugen -- falls irgendwann jemand so
> >  einen Trennalgorithmus schreibt.

> Für textlastige Dokumente, also ohne eine Vielzahl an Makros im
> laufenden Text, ist das geradezu trivial. Jedenfalls aus meiner
> Sicht.

> >* Weniger aufwendig ist die Erzeugung von Alternativtrennmustern wie
> >   "nur Haupttrennstellen" oder ähnlichem.

> das könnte man ja alles über Optionen festlegen.

Die Idee ist, daß dehyph-exptl zusätzlich zu den bisherigen *.pat Dateien
auch welche mit "nur Haupttrennstellen" enthält, die dann über die Auswahl
in der Dokumentpräambel wahlweise aktiviert werden können.

> >Wenn ich den gegenwärtigen TeX-Algorithmus richtig verstehe, dann werden
> >"redundante" Wörter in der "Wortliste" (d.h. solche, die auch ohne separaten
> >Eintrag korrekt getrennt werden) bei der Umwandlung in "pattern" mit patgen
> >sowieso herausgefiltert. Der TeX Anwender ist mit den > 400000
> >Einträgen der "Wortliste" nicht konfrontiert.

> natürlich nicht, aber PatGen legt sich irgendwann die Karten,
> denn es wurde damals nicht für derartig große Dateien entwickelt.

Das Problem der Obergrenze an Leveln ist aber nur für Einträge mit
Information (i.e. solche, die Fehltrennungen verhindern) relevant. Wenn wir
dort an die Grenze stößen, müssen wir selten verwendete Wörter auslagern.
Redundante Einträge ändern die generierten Pattern ja gerade nicht.

> Die Philosophie ist ja gerade _kleine_ Datenbestände als Grundlage
> zu haben.

Soweit ich die Philosophie verstanden habe geht es darum, aus egal wie
umfangreichen Rohdaten im Vorfeld mit patgen eine kleine und effiziente
Mustermenge (*.pat Datei) zu erstellen, die dann von TeX verwendet wird.

> >Es ist also "unschädlich", die Wortliste um korrekte Wörter zu ergänzen,
> >denn es gibt die zwei Fälle
> >
> >  a) Wort wird schon richtig getrennt -> pattern bleiben gleich

> Jein, denn die Wahrscheinlichkeit kann sich ändern.

Bisher bin ich davon ausgegangen, daß es sich bei der Mustererstellung
mit patgen um einen deterministischen Algorithmus zur Datenkompression
handelt.

Der Trennalgorithmus in TeX ist ebenfalls deterministisch. 

Oder meinst Du mit "Wahrscheinlichkeit" die Wichtungen ("level") der
Trennstellen in den Mustern? Die innere Organisation der Muster könnte sich
tatsächlich ändern.

...

> Eine LuaTeX-Implementation wird schwierig werden, denn LuaTeX ist jetzt
> schon _erheblich_ langsamer als pdfTeX.

Die längere Laufzeit ist dann der Preis, der für eine "all-inclusive"
Lösung mit Spezialtrennung und Wichtung zu zahlen ist. Ob ein Präprozessor
für 8-bit-TeX + anschließendem TeXen schneller ist bleibt abzuwarten.

Günter