[Trennmuster] Dokumentation der Trennstellenauszeichnungen

Stephan Hennig mailing_list at arcor.de
Mi Sep 25 19:43:20 CEST 2013


Am 26.08.2013 13:10, schrieb Guenter Milde:
> On 24.08.13, Stephan Hennig wrote:
> 
>> Versteht letzteres Skript alle in ersterer Datei gezeigten Finessen?
> 
> Das zur zeit nicht nötig, da für die Trennmuster für das traditionelle
> (8-bit) TeX nur einfache (ungewichtete, unkategorisierte) Trennstellen
> enthalten können.

Ich meinte insbesondere dies:

  # [...]  Der Punkt ersetzt das Trennzeichen für nicht kategorisierte
  # Trennstellen oder folgt auf Trennzeichen zur Kategorisierung:
  #
  #   An·den.ken, Ost=en-.de

Soweit ich es überblicke, werden ungünstige Trennstellen in der Liste
bisher nicht morphologisch kategorisiert.  Funktioniert das inzwischen?


>> 3. Bezüglich der Wichtung von schlechten Trennstellen:
> 
> Wenn ich mich der Diskussion recht erinnere, wurde die Wichtung
> ungünstiger Trennstellen als notwendigerweise subjektiv eingeschätzt. Die
> Benennung und die Beispiele der 3-stufigen Einteilung sind daher eher
> illustrativ als normativ. Eine noch feinere Abstufung erscheint mir
> nicht sinnvoll.
> 
>> Nach meiner Einschätzung handelt es sich bei Anden-ken und Reim-port um
>> sinnentstellende Trennungen, bei Gewinner-wartung wiederum lediglich um
>> eine irreführende Trennung (scheinbarer und tatsächlicher Wortstamm sind
>> gleich).
> 
> Je nach Kontext kann ein scheinbares Teilwort mit komplett anderer
> Semantik entweder besonders oder nicht störend (da nicht erwartet und
> daher auch nicht erkannt) auf den Lesefluß wirken.
> 
> Es ist mit der Zeichenverdoppelung auch keine Kategorisierung sondern ein
> Hinweis auf die Stärke der "Ungunst" beabsichtigt:
> 
>   .   ungünstig
>   ..  sehr ungünstig
>   ... äußerst ungünstig
> 
> Wichtig ist, daß die drei Stufen der "Vermeidensdringlichkeit" es einem
> fortgeschrittenen Trennalgorithmus ermöglichen sollen je nach
> Dringlichkeit und "Ungunst" auch ungünstige Trennungen zuzulassen.
> Bessere/alternative Benennungen/Beispiele oder Wichtungskriterien sind
> willkommen. 
> 
> 
>> Außerdem enthält die Wortliste bisher keine mehrfach
>> aufeinanderfolgenden Punkte.  Daher schlage ich folgende Änderung vor:
> 
>>   .     nicht bewertete, unschöne Trennung
>>   ..    irreführend
>>   ...   sinnentstellend
>>   ....  anstößig
> 
>> Andernfalls wäre die Bewertung . nicht vertrauenswürdig.  Sie entspräche
>> sowohl irreführenden als auch unbewerteten, unschönen Trennungen.
> 
> Da in der bisher einzigen Einstellung *alle* als ungünstig markierten
> Trennstellen unterdrückt werden ist die "Vertrauenswürdigkeit" (noch)
> kein Problem. 
> 
> Ich denke, die Unterscheidung von "ungünstigen" und "garantiert normal
> ungünstigen" Trennstellen ist nicht so entscheidend, daß wir dafür die
> schöne Korrelation 
> 
>    Anzahl der Zeichen -- "Stärke" der Markierung 
>    
> aufgeben sollten.
> 
> Allein stehen die "alten" Zeichen (· und .) für nicht
> kategorisierte/gewichtete Trennstellen.
> 
> Wenn wir darauf achten, daß bei der Kategorisierung (· -> [=,-,|])
> von stark oder äußerst ungünstigen Trennstellen dies Wichtung markiert wird,
> kann ein zukünftiger Trennalgorithmus die Existenz des
> Kategoriezeichens zur Unterscheidung von "normal" und "irgendwie" ungünstig
> heranziehen. Ein vorsichtiger Algorithumus könnte dann in der ersten
> "permissiven" Stufe nur Trennungen mit "=.", "|." oder "-." zulassen, aber
> "." weiter unterdrücken. 

Ich gehe davon aus, dass der betrachtete Trennalgorithmus im Kern
musterbasiert ist (Liang).  Mit Hilfe von Mustern kann man nur eine
Information kodieren: An dieser Stelle ist eine Trennung möglich oder
sie ist nicht möglich.  Um welche Art von Trennstelle es sich handelt,
kann so nicht transportiert werden.  Das Format der Muster aufzubohren,
wie es in Open-/LibreOffice versucht wird, um Spezialtrennungen zu
behandeln, halte ich für keine gute Idee.  Soweit ich weiß, ist Taco
davon auch nicht begeistert.  Statt dessen kann man zusätzliche
Informationen zu Trennstellen in der Art kodieren, dass sie an einen
Satz von Mustern angeheftet wird (Muster für Haupttrennstellen, für
Nebentrennstellen, für unschöne Trennungen erster, zweiter bzw. dritter
Art usw.) und mehrere Mustersätze gleichzeitig auf den zu trennenden
Text angewendet werden.  Das ergibt dann für jede Wortposition eine
Kombination von Mustern, die dort eine Trennung anzeigen oder nicht
anzeigen.  Diese Information wird per Regelwerk zur Entscheidung
"Trennung an dieser Position möglich mit Gewicht x" konsolidiert und die
so ermittelten Trennstellen gehen schließlich mit ihrem Gewicht in den
Absatzumbruch ein.

Die Begriffe "vorsichtig" und "Stufe" kann ich hier nicht einordnen.
Kannst du das etwas näher erläutern?


> Alternativ könnte der Autor eines fortgeschrittenen, konfigurablen
> Trennalgorithmus auch zunächst alle stark oder äußerst ungünstigen
> Trennstellen durch Doppelung der Punkte markieren.

Und dieses auch?

Viele Grüße,
Stephan Hennig

PS: Weitere Antworten muss ich leider um eine weitere Woche verschieben.
 Mir ist klar, dass die unschönen Trennungen der weiteren Diskussion
harren.  Aber vielleicht ist es auch gar nicht schlecht, wenn wir
zunächst den ungefähren Zielalgorithmus klären.




Mehr Informationen über die Mailingliste Trennmuster