[Trennmuster] Dokumentation der Trennstellenauszeichnungen

Do Aug 29 13:22:40 CEST 2013

On 29.08.13, Stephan Hennig wrote:
> Am 26.08.2013 00:13, schrieb Guenter Milde:
> > On 24.08.13, Stephan Hennig wrote:

> > Für die Zukunft ist die zusätzliche Generation von Trennmustern mit
> > alternativen (nur Haupttrennstellen, Mindestabstände zwischen
> > berücksichtigten Nebentrennstellen und Haupttrennstellen, keine
> > Trennstellenunterdrückung außer sinnentstellend, etc.) möglich.

> Allein, ich halte solche alternativen Trennmuster, die viele mögliche
> Kombinationen von Trennstellen berücksichtigen, nicht für einen
> gangbaren Weg.  Solche Muster werden lediglich aufgrund von
> Einzelinitiative Anwendung finden (wie zum Beispiel Georg das momentan
> mit Prä-Duden-Mustern macht).  PdfTeX und andere Anwendungen werden aus
> praktischen Gründen vermutlich wohl lediglich eine einzige
> Geschmacksrichtung an (experimentellen) deutschen Trennmustern verwenden.

Ich dachte, da es bereits ein Paket zur Auswahl der Version der
Trennmuster gibt, könnte dies auch zur Auswahl einer Variante der
Trennmuster im Quelldokument genutzt werden. Aber ich muß zugeben, daß ich
über die Feinheiten bisher wenig Bescheid weiß.

> > Außerdem könnten die gewichteten/kategorisierten Trennstellen auch von
> > einem zukünftigen alternativen, configurierbarem Lua-Trennalgorithmus
> > oder anderen Satzprogrammen/Officeprogrammen genutzt und ausgewertet werden.

> Bezüglich unterschiedlicher Trennvarianten schwebt mir folgendes vor:
> Unabhängig davon, ob eine Anwendung ungewichtete (pdfTeX) oder
> gewichtete (LuaTeX) Trennstellen verwendet, abgeleitet aus
> "Grundmustern", können mit zusätzlichen "Korrekturmustern" bestimmte
> Trennungen erlaubt oder verboten werden.  Dadurch kann man die
> Worttrennung einem eigenen Stil anpassen, zum Beispiel:

> * feine Einstellung zur Behandlung von unerwünschten (fehlleitenden)
>   Trennungen,

> * Trennungen von ...-ower statt ...o-wer in der reformierten
>   Rechtschreibung,

> * Trennung von -st in Superlativen in der reformierten
>   Rechtschreibung (Gab es nicht eine solche Empfehlung des
>   Vereins für deutsche Sprache?),

> * Grundsätzliche Vermeidung von Trennungen zwischen Vokalen
>   (Na-tion statt Na-ti-on),

> * usw.

> Voraussetzung ist, dass

> (i) die Information zu solchen einzelnen Korrekturmustern aus der
>     Wortliste abgeleitet werden kann (dazu ist nicht unbedingt
>     explizites Mark-up in der Wortliste nötig),

> (ii) die Anwendung Mechanismen bereitstellt, solche Korrekturmuster zu
>      interpretieren.  Bei LuaTeX sehe ich da wenig Probleme.  Mit einem
>      solchen Mechanismus ließen sich viele unterschiedliche Bedürfnisse
>      und Geschmäcker befriedigen.

> Der Vorteil wäre, dass Nutzer nicht durch eine (Viel)zahl von
> verschiedenen "Grundmustern" verwirrt und gleichzeitig durch die Zahl an
> vorberechneten Mustern eingeschränkt würden.  Es gibt je Varietät einen
> Satz an Grundmustern und abhängig von der Vitalität dieses Projekts
> verschiedene Sätze an Korrekturmustern.  (Ich hoffe, das ist
> einigermaßen verständlich.  Ich kann die Idee bei Bedarf auch noch
> genauer erklären.)

Als Anwenderschnittstelle für einen solches künftiges Trennsystem schwebt
mir das klassische \usepackage[<Optionen>]{<Trennpaket>} vor.

> >> 3. Bezüglich der Wichtung von schlechten Trennstellen:

> > Eine noch feinere Abstufung erscheint mir nicht sinnvoll.

> Ich denke da zum Beispiel an automatisierten Satz (zum Beispiel
> Kataloge).  Dabei ist eines der wichtigsten Kriterien, dass Absätze
> /überhaupt/ in akzeptabler Form gesetzt werden.  Trotzdem möchte man zum
> Beispiel anstößige Trennungen vermeiden.  Oder auch sinnentstellende.
> Oder auch irreführende.  Aber zu plausiblen, jedoch nicht existierenden
> Wörtern führende Trennungen, wie den Kafkaken-ner, möchte man zugunsten
> weniger manueller Intervention aber vielleicht doch lieber generell
> zulassen?  Wenn für jede Stufe fehlleitender Trennungen entsprechende
> Korrekturmuster existieren würden (siehe oben), hätte man ein
> hochflexibles Werkzeug, mit dem man vielen Bedürfnissen nachkommen könnte.

Das wären dann 4 Stufen (., .., ..., ....)

...

> > Es ist mit der Zeichenverdoppelung auch keine Kategorisierung sondern ein
> > Hinweis auf die Stärke der "Ungunst" beabsichtigt:
> > 
> >   .   ungünstig
> >   ..  sehr ungünstig
> >   ... äußerst ungünstig
> > 
> > Wichtig ist, daß die drei Stufen der "Vermeidensdringlichkeit" es einem
> > fortgeschrittenen Trennalgorithmus ermöglichen sollen je nach
> > Dringlichkeit und "Ungunst" auch ungünstige Trennungen zuzulassen.
> > Bessere/alternative Benennungen/Beispiele oder Wichtungskriterien sind
> > willkommen.

> Ich glaube ehrlich gesagt nicht, dass sich mehr als zwei oder drei
> Trenngewichte (für Haupt- und Nebentrennstellen) sinnvoll in den
> Trennalgorithmus integrieren lassen.  Ergebnis wären dann nur
> Trennungen, bei denen sich der Anwender fragt, warum sie denn
> ausgerechnet jetzt verwendet wurden, obwohl das Gewicht doch so klein
> (oder groß) ist.  Harte Trennge- und -verbote, die vom Nutzer angepasst
> werden können, halte ich tatsächlich für anwenderfreundlicher (für den
> Nutzer durchschaubarer und nachvollziehbarer).

Mir geht es hier zunächst nur um die Stufen der *Auszeichnung*. Ob und wie
ein künftiger Algorithmus diese als "harte" Verbote interpretiert oder gegen
die "Dringlichkeit" einer Trennung wegen überlanger/-kurzer Zeilen abwägt
ist dabei noch unerheblich bzw. gibt es da einen großen Spielraum für
Experimente aller Art.

> >> Außerdem enthält die Wortliste bisher keine mehrfach
> >> aufeinanderfolgenden Punkte.  Daher schlage ich folgende Änderung vor:
> > 
> >>   .     nicht bewertete, unschöne Trennung
> >>   ..    irreführend
> >>   ...   sinnentstellend
> >>   ....  anstößig
> > 
> >> Andernfalls wäre die Bewertung . nicht vertrauenswürdig.  Sie entspräche
> >> sowohl irreführenden als auch unbewerteten, unschönen Trennungen.

...

Ich finde die Sonderrolle des "ein Punkt Zeichens" äußerst ungünstig.

* sie paßt nicht in das Schema: mehr Zeichen mehr Effekt: Wenn wir
  die "leicht irritierenden" Fälle neu aufnehmen, werden sie optisch
  deutlich auffälliger markiert als selbst starke "Altfälle":
  an.al·pha·be·tisch vs. Kaf-ka=ken-..ner

* im Fall einer vollständigen Wichtung hätten wir dann nur noch
  "..", "...", "..." d.h. der "Idealzustand" ließe sich schwer als
  sinnvolle Wahl der Markierungszeichen begründen.

> Aber wenn ich die bisherigen Markierungen an
> das feinere Schema (welches auch immer) anpassen möchte, dann möchte ich
> per grep nach noch nicht genauer bestimmten, ungünstigen Trennungen
> suchen können, ohne dass dabei immer wieder die endgültig als
> irreführend klassifizierten Trennungen auftauchen.  Dieses Problem
> möchte ich lösen.  Andere Vorschläge?

Ja: 

  grep "[^-=|]." wortliste

Bedingung:

  Kategorisierung (· -> =∨-∨|) und Wichtung (. -> .∨..∨...∨....)
  müssen gleichzeitig erfolgen.

  Dann ist sind die Zeichenfolgen -., |. und =. immer behandelte
  Trennstellen während . nach [a-zöäüß] immer unbehandelt ist.

Alternativ: 
  Festlegung eines anderen Zeichens oder Zeichensatzes für "behandelte
  ungünstige Trennstellen", z.B.

   .     nicht bewertete, unschöne Trennung
   *    irreführend
   **   sinnentstellend
   ***  anstößig

  so daß gilt:

   ·.     unbehandelte Trennstelle
   -|= *   behandelte Trennstelle

  Nachteil: bedarf der Einigung auf ein oder mehrere neue Trennzeichen.

Günter