[Trennmuster] Dokumentation der Trennstellenauszeichnungen
Guenter Milde
g.milde at quantentunnel.de
Mo Aug 26 13:10:08 CEST 2013
(Re-post an die Liste.)
On 24.08.13, Stephan Hennig wrote:
> Hallo,
> anlässlich der kürzlichen Verwirrung um die Datei dateikopf einige
> Bemerkungen:
> 1. Zwar habe ich eine Diskussionen um eine genauere Auszeichnung der
> Trennstellen durch Trennung von Klassifizierung (=|-) und Wichtung
> (Verdoppelung) von vor etwa einem Jahr im Hinterkopf, jene jedoch nur am
> Rande verfolgt. Wenn ich die Änderungen an dateikopf und dem/den
> extract-Skript(en) vergleiche, fällt auf, dass diese zuletzt eher selten
> gleichzeitig erfolgten:
...
> Daher eine Frage: Sind die Dateien dokumente/dateikopf und
> skripte/extract-tex.pl beide auf demselben Stand?
Inzwischen, ja. Die Dokumentation in "dateikopf" wurde zuerst geändert, um
den Diskussionsstand festzuhalten und auf den Punk zu bringen.
Erst danach wurden neu definierte Trennmarkierungen auch auf "frisch
geänderte" Einträge in der Liste angewendet.
Vor dem nächsten Mustergenerationslauf wurden die Extraktionsskripte an
die erweiterte Syntax angepaßt.
> Versteht letzteres Skript alle in ersterer Datei gezeigten Finessen?
Das zur zeit nicht nötig, da für die Trennmuster für das traditionelle
(8-bit) TeX nur einfache (ungewichtete, unkategorisierte) Trennstellen
enthalten können.
Für die Zukunft ist die zusätzliche Generation von Trennmustern mit
alternativen (nur Haupttrennstellen, Mindestabstände zwischen
berücksichtigten Nebentrennstellen und Haupttrennstellen, keine
Trennstellenunterdrückung außer sinnentstellend, etc.) möglich.
Außerdem könnten die gewichteten/kategorisierten Trennstellen auch von
einem zukünftigen alternativen, configurierbarem Lua-Trennalgorithmus
oder anderen Satzprogrammen/Officeprogrammen genutzt und ausgewertet werden.
> 2. Erhellend war für mich auch Günters jüngste Einlassung zum Vorgehen
> bei der Trennstellenbewertung. Dass diese vorrangig mit Blick auf das
> Erstellen von Mustern zur Behandlung von Ligaturen und Rund-/Lang-s
> erfolgt, war mir, wenn auch nicht ganz neu, so doch eine wertvolle
> Erinnerung. Ich denke, sowohl dieses Ziel als auch eine Diskussion des
> Zusammenhangs von Trennstellen und Ligaturen bzw. Rund-/Lang-s sollte in
> die Datei aufgenommen werden. Leider stecke ich in der Materie nicht so
> tief drin. Kann das bitte jemand übernehmen?
> 3. Bezüglich der Wichtung von schlechten Trennstellen:
Wenn ich mich der Diskussion recht erinnere, wurde die Wichtung
ungünstiger Trennstellen als notwendigerweise subjektiv eingeschätzt. Die
Benennung und die Beispiele der 3-stufigen Einteilung sind daher eher
illustrativ als normativ. Eine noch feinere Abstufung erscheint mir
nicht sinnvoll.
> Nach meiner Einschätzung handelt es sich bei Anden-ken und Reim-port um
> sinnentstellende Trennungen, bei Gewinner-wartung wiederum lediglich um
> eine irreführende Trennung (scheinbarer und tatsächlicher Wortstamm sind
> gleich).
Je nach Kontext kann ein scheinbares Teilwort mit komplett anderer
Semantik entweder besonders oder nicht störend (da nicht erwartet und
daher auch nicht erkannt) auf den Lesefluß wirken.
Es ist mit der Zeichenverdoppelung auch keine Kategorisierung sondern ein
Hinweis auf die Stärke der "Ungunst" beabsichtigt:
. ungünstig
.. sehr ungünstig
... äußerst ungünstig
Wichtig ist, daß die drei Stufen der "Vermeidensdringlichkeit" es einem
fortgeschrittenen Trennalgorithmus ermöglichen sollen je nach
Dringlichkeit und "Ungunst" auch ungünstige Trennungen zuzulassen.
Bessere/alternative Benennungen/Beispiele oder Wichtungskriterien sind
willkommen.
> Außerdem enthält die Wortliste bisher keine mehrfach
> aufeinanderfolgenden Punkte. Daher schlage ich folgende Änderung vor:
> . nicht bewertete, unschöne Trennung
> .. irreführend
> ... sinnentstellend
> .... anstößig
> Andernfalls wäre die Bewertung . nicht vertrauenswürdig. Sie entspräche
> sowohl irreführenden als auch unbewerteten, unschönen Trennungen.
Da in der bisher einzigen Einstellung *alle* als ungünstig markierten
Trennstellen unterdrückt werden ist die "Vertrauenswürdigkeit" (noch)
kein Problem.
Ich denke, die Unterscheidung von "ungünstigen" und "garantiert normal
ungünstigen" Trennstellen ist nicht so entscheidend, daß wir dafür die
schöne Korrelation
Anzahl der Zeichen -- "Stärke" der Markierung
aufgeben sollten.
Allein stehen die "alten" Zeichen (· und .) für nicht
kategorisierte/gewichtete Trennstellen.
Wenn wir darauf achten, daß bei der Kategorisierung (· -> [=,-,|])
von stark oder äußerst ungünstigen Trennstellen dies Wichtung markiert wird,
kann ein zukünftiger Trennalgorithmus die Existenz des
Kategoriezeichens zur Unterscheidung von "normal" und "irgendwie" ungünstig
heranziehen. Ein vorsichtiger Algorithumus könnte dann in der ersten
"permissiven" Stufe nur Trennungen mit "=.", "|." oder "-." zulassen, aber
"." weiter unterdrücken.
Alternativ könnte der Autor eines fortgeschrittenen, konfigurablen
Trennalgorithmus auch zunächst alle stark oder äußerst ungünstigen
Trennstellen durch Doppelung der Punkte markieren.
Günter
Mehr Informationen über die Mailingliste Trennmuster