[Trennmuster] Warum nicht sisisi

Herbert Voss Herbert.Voss at FU-Berlin.DE
Fr Nov 29 21:50:54 CET 2013


Am 29.11.2013 21:38, schrieb Stephan Hennig:

> Hier mal ein paar Vorteile des Liangschen Trennalgorithmus:

>    * Der Trennalgorithmus ist schnell (O(n) mit n = Wortlänge,
>      und die zugrundeliegenden Operationen sind sehr leichtgewichtig:
>      je Buchstabe ein Tabellenzugriff [für die Zustandsänderung des
>      Automaten] und eine schlecht zu schätzende, aber geringe Zahl
>      von Vergleichen [zur Maximumbestimmung]).

das bezieht sich auf die Trennmusterdateien die im Allgemeinen
< 100 kB sind und ist außerdem extrem abhängig von der maximalen
Trennmusterlänge.

>    * Wie schon erwähnt, kommen Anwender mit dem rechenaufwendigen
>      Prozess der Mustererstellung nicht in Berührung.
>
> Vorteile eines anderen Algorithmus kann ich nur erkennen, wenn dieser in
> der Lage ist, Trennstellen gleicher Klasse unterschiedlich zu wichten.

Das ist doch mein Reden! Eure Liste ist für PatGen Overkill, wohingegen
ein Script, welches die TeXquelle anhand von Parametern in
beispielsweise

"Vor\-teile eines anderen Algo\-rith\-mus kann ich nur er\-kennen,
  wenn die\-ser in der Lage ist, Trenn\-stellen gleicher Klasse
  unter\-schied\-lich zu wich\-ten."

umwandelt, also dem pdflatex/xelatex/lualatex/was-auch-immer
vorgeschaltet wird. Die Trennmuster finden dann in obigen Beispiel
nur noch Anwendung bei (und zwar automatisch!)

" eines anderen kann ich nur wenn in der Lage ist gleicher Klasse zu "

Und ein Skript zu erstellen, welches mit der bereits vorhanden Wortliste
gewichtete Trennungen durch Einfügen von "\-" in bekannte Wörter
vornimmt, ist auch nicht sonderlich kompliziert.

Herbert



Mehr Informationen über die Mailingliste Trennmuster