[Trennmuster] Dokumentation der Trennstellenauszeichnungen

Do Aug 29 10:07:39 CEST 2013

[Ich bin unterwegs, daher die etwas verspätete Antwort.]

Am 26.08.2013 00:13, schrieb Guenter Milde:
> On 24.08.13, Stephan Hennig wrote:
> 
>> Daher eine Frage: Sind die Dateien dokumente/dateikopf und
>> skripte/extract-tex.pl beide auf demselben Stand? 
> 
> Inzwischen, ja. Die Dokumentation in "dateikopf" wurde zuerst geändert, um
> den Diskussionsstand festzuhalten und auf den Punk zu bringen. 
> 
> Erst danach wurden neu definierte Trennmarkierungen auch auf "frisch
> geänderte" Einträge in der Liste angewendet.
> 
> Vor dem nächsten Mustergenerationslauf wurden die Extraktionsskripte an
> die erweiterte Syntax angepaßt.

OK, danke.

>> Versteht letzteres Skript alle in ersterer Datei gezeigten Finessen?
> 
> Das zur zeit nicht nötig, da für die Trennmuster für das traditionelle
> (8-bit) TeX nur einfache (ungewichtete, unkategorisierte) Trennstellen
> enthalten können.

Schon klar.  Es ging mir auch eher darum, ob bei mehrfachen Trennzeichen
in Folge immer maximal ein Trennzeichen - in der Eingabeliste für patgen
verbleibt.

> Für die Zukunft ist die zusätzliche Generation von Trennmustern mit
> alternativen (nur Haupttrennstellen, Mindestabstände zwischen
> berücksichtigten Nebentrennstellen und Haupttrennstellen, keine
> Trennstellenunterdrückung außer sinnentstellend, etc.) möglich.

Allein, ich halte solche alternativen Trennmuster, die viele mögliche
Kombinationen von Trennstellen berücksichtigen, nicht für einen
gangbaren Weg.  Solche Muster werden lediglich aufgrund von
Einzelinitiative Anwendung finden (wie zum Beispiel Georg das momentan
mit Prä-Duden-Mustern macht).  PdfTeX und andere Anwendungen werden aus
praktischen Gründen vermutlich wohl lediglich eine einzige
Geschmacksrichtung an (experimentellen) deutschen Trennmustern verwenden.

> Außerdem könnten die gewichteten/kategorisierten Trennstellen auch von
> einem zukünftigen alternativen, configurierbarem Lua-Trennalgorithmus
> oder anderen Satzprogrammen/Officeprogrammen genutzt und ausgewertet werden.

Bezüglich unterschiedlicher Trennvarianten schwebt mir folgendes vor:
Unabhängig davon, ob eine Anwendung ungewichtete (pdfTeX) oder
gewichtete (LuaTeX) Trennstellen verwendet, abgeleitet aus
"Grundmustern", können mit zusätzlichen "Korrekturmustern" bestimmte
Trennungen erlaubt oder verboten werden.  Dadurch kann man die
Worttrennung einem eigenen Stil anpassen, zum Beispiel:

* feine Einstellung zur Behandlung von unerwünschten (fehlleitenden)
  Trennungen,

* Trennungen von ...-ower statt ...o-wer in der reformierten
  Rechtschreibung,

* Trennung von -st in Superlativen in der reformierten
  Rechtschreibung (Gab es nicht eine solche Empfehlung des
  Vereins für deutsche Sprache?),

* Grundsätzliche Vermeidung von Trennungen zwischen Vokalen
  (Na-tion statt Na-ti-on),

* usw.

Voraussetzung ist, dass

(i) die Information zu solchen einzelnen Korrekturmustern aus der
    Wortliste abgeleitet werden kann (dazu ist nicht unbedingt
    explizites Mark-up in der Wortliste nötig),

(ii) die Anwendung Mechanismen bereitstellt, solche Korrekturmuster zu
     interpretieren.  Bei LuaTeX sehe ich da wenig Probleme.  Mit einem
     solchen Mechanismus ließen sich viele unterschiedliche Bedürfnisse
     und Geschmäcker befriedigen.

Der Vorteil wäre, dass Nutzer nicht durch eine (Viel)zahl von
verschiedenen "Grundmustern" verwirrt und gleichzeitig durch die Zahl an
vorberechneten Mustern eingeschränkt würden.  Es gibt je Varietät einen
Satz an Grundmustern und abhängig von der Vitalität dieses Projekts
verschiedene Sätze an Korrekturmustern.  (Ich hoffe, das ist
einigermaßen verständlich.  Ich kann die Idee bei Bedarf auch noch
genauer erklären.)

>> 3. Bezüglich der Wichtung von schlechten Trennstellen:
> 
> Wenn ich mich der Diskussion recht erinnere, wurde die Wichtung
> ungünstiger Trennstellen als notwendigerweise subjektiv eingeschätzt.

Die Frage, ob oder ob nicht, ist häufig subjektiv.  Aber ...

> Die Benennung und die Beispiele der 3-stufigen Einteilung sind daher
> eher illustrativ als normativ.

Irreführende und sinnentstellende Trennungen lassen sich dagegen auch
formal gut gegeneinander abgrenzen.  Siehe die andere aktuelle
Diskussion mit Betreff "Dokumentation" für meinen Vorschlag.

> Eine noch feinere Abstufung erscheint mir nicht sinnvoll.

Ich denke da zum Beispiel an automatisierten Satz (zum Beispiel
Kataloge).  Dabei ist eines der wichtigsten Kriterien, dass Absätze
/überhaupt/ in akzeptabler Form gesetzt werden.  Trotzdem möchte man zum
Beispiel anstößige Trennungen vermeiden.  Oder auch sinnentstellende.
Oder auch irreführende.  Aber zu plausiblen, jedoch nicht existierenden
Wörtern führende Trennungen, wie den Kafkaken-ner, möchte man zugunsten
weniger manueller Intervention aber vielleicht doch lieber generell
zulassen?  Wenn für jede Stufe fehlleitender Trennungen entsprechende
Korrekturmuster existieren würden (siehe oben), hätte man ein
hochflexibles Werkzeug, mit dem man vielen Bedürfnissen nachkommen könnte.

>> Nach meiner Einschätzung handelt es sich bei Anden-ken und Reim-port um
>> sinnentstellende Trennungen, bei Gewinner-wartung wiederum lediglich um
>> eine irreführende Trennung (scheinbarer und tatsächlicher Wortstamm sind
>> gleich).
> 
> Je nach Kontext kann ein scheinbares Teilwort mit komplett anderer
> Semantik entweder besonders oder nicht störend (da nicht erwartet und
> daher auch nicht erkannt) auf den Lesefluß wirken.

Das stimmt zwar.  Allerdings hätten formale Kriterien neben der
algorithmischen/maschinentauglichen Erfassbarkeit auch den Vorteil, dass
sie für Nutzer leicht verständlich und nachvollziehbar wären.  Auch wenn
im Einzelfall eine formal irreführende Trennung die Leserlichkeit mal
stärker beeinträchtigen könnte als eine andere formal sinnentstellende
Trennung.

> Es ist mit der Zeichenverdoppelung auch keine Kategorisierung sondern ein
> Hinweis auf die Stärke der "Ungunst" beabsichtigt:
> 
>   .   ungünstig
>   ..  sehr ungünstig
>   ... äußerst ungünstig
> 
> Wichtig ist, daß die drei Stufen der "Vermeidensdringlichkeit" es einem
> fortgeschrittenen Trennalgorithmus ermöglichen sollen je nach
> Dringlichkeit und "Ungunst" auch ungünstige Trennungen zuzulassen.
> Bessere/alternative Benennungen/Beispiele oder Wichtungskriterien sind
> willkommen.

Ich glaube ehrlich gesagt nicht, dass sich mehr als zwei oder drei
Trenngewichte (für Haupt- und Nebentrennstellen) sinnvoll in den
Trennalgorithmus integrieren lassen.  Ergebnis wären dann nur
Trennungen, bei denen sich der Anwender fragt, warum sie denn
ausgerechnet jetzt verwendet wurden, obwohl das Gewicht doch so klein
(oder groß) ist.  Harte Trennge- und -verbote, die vom Nutzer angepasst
werden können, halte ich tatsächlich für anwenderfreundlicher (für den
Nutzer durchschaubarer und nachvollziehbarer).

>> Außerdem enthält die Wortliste bisher keine mehrfach
>> aufeinanderfolgenden Punkte.  Daher schlage ich folgende Änderung vor:
> 
>>   .     nicht bewertete, unschöne Trennung
>>   ..    irreführend
>>   ...   sinnentstellend
>>   ....  anstößig
> 
>> Andernfalls wäre die Bewertung . nicht vertrauenswürdig.  Sie entspräche
>> sowohl irreführenden als auch unbewerteten, unschönen Trennungen.
> 
> Da in der bisher einzigen Einstellung *alle* als ungünstig markierten
> Trennstellen unterdrückt werden ist die "Vertrauenswürdigkeit" (noch)
> kein Problem. 
> 
> Ich denke, die Unterscheidung von "ungünstigen" und "garantiert normal
> ungünstigen" Trennstellen ist nicht so entscheidend, daß wir dafür die
> schöne Korrelation 
> 
>    Anzahl der Zeichen -- "Stärke" der Markierung 
>    
> aufgeben sollten.
> 
> Allein stehen die "alten" Zeichen (· und .) für nicht
> kategorisierte/gewichtete Trennstellen.

Es geht mir gar nicht um die "garantiert normal ungünstigen"
Trennstellen als solche.  Aber wenn ich die bisherigen Markierungen an
das feinere Schema (welches auch immer) anpassen möchte, dann möchte ich
per grep nach noch nicht genauer bestimmten, ungünstigen Trennungen
suchen können, ohne dass dabei immer wieder die endgültig als
irreführend klassifizierten Trennungen auftauchen.  Dieses Problem
möchte ich lösen.  Andere Vorschläge?

> Wenn wir darauf achten, daß bei der Kategorisierung (· -> [=,-,|])
> von stark oder äußerst ungünstigen Trennstellen dies Wichtung markiert wird,
> kann ein zukünftiger Trennalgorithmus die Existenz des
> Kategoriezeichens zur Unterscheidung von "normal" und "irgendwie" ungünstig
> heranziehen. Ein vorsichtiger Algorithumus könnte dann in der ersten
> "permissiven" Stufe nur Trennungen mit "=.", "|." oder "-." zulassen, aber
> "." weiter unterdrücken.

Da bin ich skeptisch.  Talent|wässerung und Gewinner|mittlung halte ich
für unterschiedlich ungünstig (erstere sinnentstellend, letztere
irreführend).

> Alternativ könnte der Autor eines fortgeschrittenen, konfigurablen
> Trennalgorithmus auch zunächst alle stark oder äußerst ungünstigen
> Trennstellen durch Doppelung der Punkte markieren.

Ich sehe durch eine (sehr) feinkörnige Bewertung ungünstiger
Trennstellen keine Nachteile.  Sofern die Erfassung als unvollständig
und subjektiv dokumentiert wird, haben wir so gut wie keinen Mehraufwand.

Viele Grüße,
Stephan Hennig