[Trennmuster] Dokumentation der Trennstellenauszeichnungen
Guenter Milde
milde at users.sf.net
Do Sep 26 11:30:23 CEST 2013
On 25.09.13, Stephan Hennig wrote:
> Am 26.08.2013 13:10, schrieb Guenter Milde:
> > On 24.08.13, Stephan Hennig wrote:
> >
> >> Versteht letzteres Skript alle in ersterer Datei gezeigten Finessen?
> >
> > Das zur zeit nicht nötig, da für die Trennmuster für das traditionelle
> > (8-bit) TeX nur einfache (ungewichtete, unkategorisierte) Trennstellen
> > enthalten können.
> Ich meinte insbesondere dies:
> # [...] Der Punkt ersetzt das Trennzeichen für nicht kategorisierte
> # Trennstellen oder folgt auf Trennzeichen zur Kategorisierung:
> #
> # An·den.ken, Ost=en-.de
> Soweit ich es überblicke, werden ungünstige Trennstellen in der Liste
> bisher nicht morphologisch kategorisiert. Funktioniert das inzwischen?
Seit Werners Korrektur vom Do 26 Sep 2013 (Eintrag
b1516787904f907093856858e49fbd91e9c80d5f) sollte es funktionieren. (Der
veraltete reguläre Ausdruck war die Ursache für das Auftauchen von
"rein-vestiert" etc.)
> >> 3. Bezüglich der Wichtung von schlechten Trennstellen:
> >
> > Wenn ich mich der Diskussion recht erinnere, wurde die Wichtung
> > ungünstiger Trennstellen als notwendigerweise subjektiv eingeschätzt. Die
> > Benennung und die Beispiele der 3-stufigen Einteilung sind daher eher
> > illustrativ als normativ. Eine noch feinere Abstufung erscheint mir
> > nicht sinnvoll.
> >
> >> Nach meiner Einschätzung handelt es sich bei Anden-ken und Reim-port um
> >> sinnentstellende Trennungen, bei Gewinner-wartung wiederum lediglich um
> >> eine irreführende Trennung (scheinbarer und tatsächlicher Wortstamm sind
> >> gleich).
> >
> > Je nach Kontext kann ein scheinbares Teilwort mit komplett anderer
> > Semantik entweder besonders oder nicht störend (da nicht erwartet und
> > daher auch nicht erkannt) auf den Lesefluß wirken.
> >
> > Es ist mit der Zeichenverdoppelung auch keine Kategorisierung sondern ein
> > Hinweis auf die Stärke der "Ungunst" beabsichtigt:
> >
> > . ungünstig
> > .. sehr ungünstig
> > ... äußerst ungünstig
> >
> > Wichtig ist, daß die drei Stufen der "Vermeidensdringlichkeit" es einem
> > fortgeschrittenen Trennalgorithmus ermöglichen sollen je nach
> > Dringlichkeit und "Ungunst" auch ungünstige Trennungen zuzulassen.
> > Bessere/alternative Benennungen/Beispiele oder Wichtungskriterien sind
> > willkommen.
> >
> >
> >> Außerdem enthält die Wortliste bisher keine mehrfach
> >> aufeinanderfolgenden Punkte. Daher schlage ich folgende Änderung vor:
> >
> >> . nicht bewertete, unschöne Trennung
> >> .. irreführend
> >> ... sinnentstellend
> >> .... anstößig
> >
> >> Andernfalls wäre die Bewertung . nicht vertrauenswürdig. Sie entspräche
> >> sowohl irreführenden als auch unbewerteten, unschönen Trennungen.
> >
> > Da in der bisher einzigen Einstellung *alle* als ungünstig markierten
> > Trennstellen unterdrückt werden ist die "Vertrauenswürdigkeit" (noch)
> > kein Problem.
> >
> > Ich denke, die Unterscheidung von "ungünstigen" und "garantiert normal
> > ungünstigen" Trennstellen ist nicht so entscheidend, daß wir dafür die
> > schöne Korrelation
> >
> > Anzahl der Zeichen -- "Stärke" der Markierung
> >
> > aufgeben sollten.
> >
> > Allein stehen die "alten" Zeichen (· und .) für nicht
> > kategorisierte/gewichtete Trennstellen.
> >
> > Wenn wir darauf achten, daß bei der Kategorisierung (· -> [=,-,|])
> > von stark oder äußerst ungünstigen Trennstellen dies Wichtung markiert wird,
> > kann ein zukünftiger Trennalgorithmus die Existenz des
> > Kategoriezeichens zur Unterscheidung von "normal" und "irgendwie" ungünstig
> > heranziehen. Ein vorsichtiger Algorithumus könnte dann in der ersten
> > "permissiven" Stufe nur Trennungen mit "=.", "|." oder "-." zulassen, aber
> > "." weiter unterdrücken.
> Ich gehe davon aus, dass der betrachtete Trennalgorithmus im Kern
> musterbasiert ist (Liang). Mit Hilfe von Mustern kann man nur eine
> Information kodieren: An dieser Stelle ist eine Trennung möglich oder
> sie ist nicht möglich. Um welche Art von Trennstelle es sich handelt,
> kann so nicht transportiert werden. Das Format der Muster aufzubohren,
> wie es in Open-/LibreOffice versucht wird, um Spezialtrennungen zu
> behandeln, halte ich für keine gute Idee. Soweit ich weiß, ist Taco
> davon auch nicht begeistert. Statt dessen kann man zusätzliche
> Informationen zu Trennstellen in der Art kodieren, dass sie an einen
> Satz von Mustern angeheftet wird (Muster für Haupttrennstellen, für
> Nebentrennstellen, für unschöne Trennungen erster, zweiter bzw. dritter
> Art usw.) und mehrere Mustersätze gleichzeitig auf den zu trennenden
> Text angewendet werden. Das ergibt dann für jede Wortposition eine
> Kombination von Mustern, die dort eine Trennung anzeigen oder nicht
> anzeigen. Diese Information wird per Regelwerk zur Entscheidung
> "Trennung an dieser Position möglich mit Gewicht x" konsolidiert und die
> so ermittelten Trennstellen gehen schließlich mit ihrem Gewicht in den
> Absatzumbruch ein.
Ich gehe davon aus, daß die "Wortliste" den grundlegenden Datensatz für
eine Vielzahl von möglichen Implementationen von Trennalgorithmen bilden
soll.
Daher nutze ich ein relativ abstraktes Modell für die auf der "Wortliste"
aufbauenden Trennalgorithmen:
* Ein "einfacher Trennalgorithmus" ermittelt zunächst mögliche Trennstellen.
Dabei werden die "Kosten" einer Trennstelle mit einem konfigurierbaren
Schwellwert verglichen und eine einfache ja/nein Entscheidung getroffen.
Anschließend wird in einem zweiten Schritt entschieden, ob an welcher der
möglichen Trennstellen auch wirklich getrennt wird.
Bespiele sind der vorhandene Trennalgorithmus in TeX oder das Einfügen von
"Soft-Hyphens" in den Fließtext eines HTML-Dokuments und die spätere
Darstellung im Browser.
* Ein "wichtender Trennalgorithmus" ermittelt Trennstellen und ihre "Kosten"
und versucht einen Absatz so zu formatieren, daß die "Gesamtkosten"
minimiert werden.
Gibt es so etwas schon?
Für die Diskussion der Auszeichnung in der "Wortliste" ist diese
Unterscheidung allerdings zweitrangig, da in beiden Fällen die "Kosten"
einer Trennstelle benötigt werden.
Die "Kosten" einer Trennstelle (oder umgekehrt ihre "Güte") sollen
wiedergeben wie sich ein Zeilenumbruch an dieser Stelle auf den Lesefluß
auswirkt. Sie ermitteln sich aus (u.a.):
* Trennung an Morphemgrenzen oder innerhalb eines Morphems
(dabei kann es noch Abstufungen geben, inwieweit eine Morphemgrenze im
heutigen Sprachverständnis als solche empfunden wird: z.B. die Trennung
"In-sider" erscheint mir "natürlicher" als "In-dustrie"),
* mögliche Fehldeutung eines Wortes infolge der Trennung,
* Abstand zu benachbarten Trennstellen.
In der "Wortliste" sind allerdings nicht die Kosten direkt ausgezeichnet,
sondern die Grundlagen für ihre Berechnung. Das hat mehrere Vorteile:
* Die Kennzeichnung von Morphemgrenzen erlaubt auch die Nutzung zur
Bestimmung von Lang-S-Schreibung und Ligaturaufbruchstellen.
* Die Berechnung der "Kosten" ist nicht eindeutig und zum Teil subjektiv.
Die Auszeichnung der "Rohdaten" ermöglicht alternative
"Kostenrechungen" auf Basis einer gemeinsamen Liste.
Das Ergebnis einer "Kostenrechung" könnte eine Liste mit Wichtungen in der
Form
der3zei6ti8ges
ge5an8gel7tem
ins4be6son7ders
sein. Wenn die "Kostenrechnung" mit einem Schwellwertabgleich kombiniert
wird, ist das Ergebnis eine Liste mit nur einem Trennzeichen oder, wie
bei `patgen`, ein Trennmustersatz.
> Die Begriffe "vorsichtig" und "Stufe" kann ich hier nicht einordnen.
> Kannst du das etwas näher erläutern?
* "Stufen" in «Stufen der "Vermeidensdringlichkeit"» ist ein unglücklich
gewählter Ausdruck für die möglichen Werte der "Zusatzkosten" in
explizit markierten ungünstigen Trennstellen. Ich versuche eine
Neubeschreibung:
Es ist mit der Zeichenverdoppelung auch keine Kategorisierung sondern
eine Angabe der zusätzlichen "Kosten" einer Trennung an dieser Stelle
beabsichtigt:
. ungünstig
.. sehr ungünstig
... äußerst ungünstig
Bei der "Kostenrechnung" kann ein von der Anzahl der Punkte
abhängiger Wert zu den "Kosten" einer Trennstelle addiert werden.
* "vorsichtiger" Trennalgorithmus meint im obigen Kontext einen
Algorithmus welcher bei der nicht eindeutigen Umsetzung der
Auszeichnung in der "Wortliste" in die Entscheidung über die
"Zulässigkeit" der Trennstelle im Zweifelsfall eine Trennstelle
unterdrückt.
> > Alternativ könnte der Autor eines fortgeschrittenen, konfigurablen
> > Trennalgorithmus auch zunächst alle stark oder äußerst ungünstigen
> > Trennstellen durch Doppelung der Punkte markieren.
> Und dieses auch?
Es geht mir hier um Alternativen zur "Sonderrolle" des einfachen Punktes
in deinem Auszeichnungsvorschlag. Der Grund für die Sonderrolle ist:
> >> Andernfalls wäre die Bewertung . nicht vertrauenswürdig. Sie
> >> entspräche sowohl irreführenden als auch unbewerteten, unschönen
> >> Trennungen.
* Gegenwärtig ist das kein Problem, da alle existierenden
Trennalgorithmen "vorsichtig" sind, d.h. explizit markierte ungünstige
Trennstellen unabhängig von der Anzahl der Punkte unterdrücken.
* In die Zukunft gedacht, hat der Autor eines Trennalgorithmus welcher
gegebenenfalls auch "Nottrennungen" zulassen möchte drei Möglichkeiten,
das Problem der nicht vertrauenswürdigen Auszeichnung anzugehen:
a) ignorieren,
b) alle Trennungen mit "." unterdrücken, oder
c) das Problem an der Wurzel packen und in der "Wortliste"
"alle stark oder äußerst ungünstigen Trennstellen durch Doppelung der
Punkte markieren."
Die Arbeit für Variante c) kann natürlich auch von der
Trennmustermannschaft übernommen werden -- gegebenenfalls auch
vorsorglich.
...
> Mir ist klar, dass die unschönen Trennungen der weiteren Diskussion
> harren. Aber vielleicht ist es auch gar nicht schlecht, wenn wir
> zunächst den ungefähren Zielalgorithmus klären.
Genau. Ich sehe bei der Diskussion der Trennstellenauszeichnung in der
"Wortliste" aber nicht so sehr einen vollständigen Trennalgorithmus als
vielmehr die "Kostenrechnung" zur Wichtung der Trennstellen als zu
berücksichtendes Ziel.
Günter
----- End forwarded message -----
Mehr Informationen über die Mailingliste Trennmuster