[Trennmuster] Fechterhalle

Stephan Hennig sh-list at posteo.net
Fr Apr 27 23:33:47 CEST 2018


Am 27.04.2018 um 21:56 schrieb Keno Wehr:
> Am 27.04.2018 um 07:56 schrieb Werner LEMBERG:
>>>> Gibt es für die Güte von Trennmustern irgendwelche objektiven
>>>> Kriterien, abgesehen davon, dass die Trennungen richtig und
>>>> vollständig sein sollten?
>>>    Hauptsächlich: wie oft ein gewisses Muster zu „guten“ bzw.
>>> „schlechten“ Trennungen führt, aber das lässt sich nicht so gut
>>> berechnen.
>> Ganz genau.  Das einzige Kriterium für mich ist, ob bestimmte
>> Parameterwerte zu besserer Trennung von Wörtern führt, die nicht in
>> unserer Liste sind.
> 
> Ein wichtiges Kriterium, ja. Aber ist das auch irgendwie überprüfbar?

Werner hat diese Idee (oder machst du das sogar?) schon häufiger
erwähnt.  Ich habe mit diesem Kriterium Probleme.  Denn, welche Liste
soll das sein?  Und wenn diese in die Wortliste eingepflegt wird
(getrennte Wörter sind ja eine kostbare Ressource), welche nimmt man
dann?  Eine neue, OK.  Angenommen, in zwei zeitlich versetzten Versuchen
mit unterschiedlicher Wort- sowie Prüfliste kommt man dann zu
unterschiedlichen Ergebnissen.  Welcher Parametersatz ist nun der
bessere?  Da Wort- und Prüfliste unterschiedlich sind, sind die
Ergebnisse nur schwierig zu vergleichen.  Die Aussagekraft ist letzten
Endes gering bis fragwürdig.  Oder denke ich schief?


>> Tatsache ist, daß patgen mit den alternativen Parametern nur ca. halb
>> so lang braucht, um die Muster zu erstellen.
>>
> 
> Das ist schön und gut, aber für mich das unwichtigste Kriterium.
> Ich frage mich vielmehr, ob es möglich ist, durch eine geschickte Wahl 
> des Trennmustersatzes das TeXnische Setzen eines Buches in der 
> Größenordnung von mehreren hundert Seiten signifikant zu beschleunigen.

Wie andere schon geäußert haben, denke auch ich, dass für die
Durchlaufzeit des Setzens da nichts zu holen ist.  Allenfalls in Bezug
auf die Größe der Trennmuster, was heute jedoch keine große Rolle mehr
spielt.

Eine Frage, die sich mir dabei stellt, ist die, ob TeX die Ergebnisse
der Trennung zwischenspeichert?  Ich habe davon noch nie gehört oder
gelesen.  Zwar kostet das Durchschleusen der Buchstaben eines Wortes
durch den Muster-Trie in etwa genau so viel Aufwand, wie das
Nachschlagen eines Wortes in einem Cache (das könnte auch ein Trie
sein).  Wenn man ein Wort zunächst im Cache sucht und nur bei Fehlschlag
die Trennmusterzerlegung vornimmt, investiert man daher anfänglich
zusätzlich Zeit.  Aber da sich die Wörter eines Textes häufig
wiederholen, sollten sich nach wenigen Absätzen die meisten Wörter im
Cache finden lassen.  Was man spart, ist das immer wiederkehrende
Ausrichten und Abwägen der Gewichte verschiedener Muster innerhalb eines
Wortes, was stets zu demselben Ergebnis führt.  Ob dadurch der
anfängliche Mehraufwand wieder reingeholt wird, ist allerdings ungewiss.
 Immerhin könnte der Codepfad bei Cachetreffern von Wörtern kürzer sein,
da ja einige Berechnungen wegfallen, und so vorhandener CPU-Cache besser
genutzt werden kann.  Nun ja, alles Theorie ...  Vielleicht würden
gewerbliche Nutzer von TeX, bei denen es auf Durchsatz ankommt,
geringfügig profitieren.

Viele Grüße,
Stephan Hennig



Mehr Informationen über die Mailingliste Trennmuster