[Trennmuster] Sinnentstellende Trennungen?

Stephan Hennig mailing_list at arcor.de
Mi Mai 28 22:28:15 CEST 2014


[fq]

Am 24.05.2014 07:40, schrieb Guenter Milde:
> On 23.05.14, Stephan Hennig wrote:
>> Am 23.05.2014 02:00, schrieb Guenter Milde:
> 
>> > ich plädiere dafür, bei Komposita die Unterdrückung sinnentstellender
>> > Trennungen über die Wichtung zu markieren, nicht über zusätzliche
>> > Punkte. Wenn wirklich Punkte gewünscht sind, können wir die Wichtung
>> > auch weglassen, aber ein Mix ist meines Erachtens nicht sinnvoll und
>> > nicht "schön".
> 
>> Ich halte beide Kennzeichnungen, morphologische Klasse und, nennen wir
>> es mal Ästhetik, für grundsätzlich voneinander unabhängig.  Das eine
>> lässt sich aus dem anderen nicht herleiten.  Daher halte ich eine
>> vollständige Kennzeichnung für sinnvoll.
> 
> Zur Zeit ist es aber so, daß bereits "einpunktige" Trennungen für TeX als
> unzulässig gewertet werden. Wenn wir nun "leicht irritierende" Trennungen
> bepunkten ohne das Extraktionsskript anzupassen, geht die zusätzliche
> Trenn-Ästhetik eindeutig zu Lasten der bei TeX traditionell stark
> gewichteten ästhetischen/mikrotypographischen Aspekten wie der
> gleichmäßigen Grauwertverteilung bzw. Zeilenlänge.

In dieser Richtung sehe ich ehrlich gesagt überhaupt keine Probleme.
Ganze Absätze bieten in der Regel genügend Spielraum, um einzelne
längere Zeichenketten unterzubringen.

Es wäre aber eine interessante Untersuchung, wie robust die Lösung des
Absatzumbruchproblems gegenüber einzelnen unterdrückten Trennungen ist.
 Wie stark also die Absatzbewertung (badness), die Gesamtzahl der
Trennungen und die Streuung der Grauwerte der einzelnen Zeilen des
Absatzes ansteigen, wenn man die jeweils effektvollsten Trennungen
verhindert.  Ich vermute allerdings recht viel Elastizität in den
Lösungen.  (Natürlich hängt das auch von der Spaltenbreite ab.)  Bei
Textverarbeitungen mit First- oder oder Best-fit-Ansatz erwarte ich eher
Probleme.


> Ich werde kein Veto gegen die Auszeichnung irritierender Trennstellen
> einlegen, aber ich bin deutlich dagegen, Stellen die im Verständnis
> mancher Leser irritierend sein könnten in der "Normalvariante" der
> Trennmuster zu unterdrücken.
> 
> Mein Vorschlag ist, die "Stufen der Ungunst" zu implementieren:
> 
> 1. Im Extraktionsskript für die "normalen" Muster Trennungen erst ab zwei
>    Strafpunkten (regexp ".*\.\.") unterdrücken.
> 
> 2. Die vorhandenen Auszeichnungen durchsehen und Trennungen die so ungünstig
>    sind, daß sie im Normalfall explizit verboten gehören anzupassen.

Welche Kriterien schlägst du vor?


> 3. Dann ist der Weg frei zur expliziten Markierung von als irritierend
>    wahrgenomennen Trennmöglichkeiten ohne negativen Einfluß auf die normalen
>    Muster. Ein neues Makeziel - "sparsam" kann dann auch diese Trennungen
>    unterdrücken und Trennmuster für Autoren, die Wert auf sorgfältige
>    Trennung legen und bereit sind, dafür aufwendige Feinarbeit zu leisten,
>    erstellen.
> 
>> Das anlassgebende Beispiel Altersteil.zeit aus Commit 3a97953 hielt ich
>> für völlig unstrittig.[1]  Die Buchstabenverbindung st ist so häufig in
>> deutschen Wörtern, dass der Diphthong-Vermutung beim Lesen unwillkürlich
>> nachgegangen wird.[2]  Insbesondere bei funktionierender Zerlegung.
>> Leser aus dem entsprechenden Fachkreis schaffen die richtige Zerlegung
>> vielleicht problemlos, aber die sollten doch nicht der Maßstab sein, oder?
> 
>> Ich halte eine wirksame Verhinderung dieser Trennung für sinnvoll.  Ich
>> kann keinen Nachteil erkennen. 
> 
> Ich finde eine "Stringlänge" von 8 Buchstaben welche nicht getrennt werden
> kann einen erheblichen Nachteil. Das führt schon in normalem Blocksatz zu
> Zeilenüberlauf oder häßlichen Lücken, in schmalen Spalten ist es untragbar.

Wie gesagt, sehe ich dieses Problem eher nicht.  Schmale Spalten sind
immer ein Problem.  Aber wer in schmalen Spalten setzt, outet sich schon
als ambitionierter Typograph und kann damit umgehen.


>> Dazu kommt, dass die Wichtung für die
>> normale Trennung bisher leider praktisch nicht genutzt werden kann.
> 
> Aus einfachem Grund: in der "normalen" Trennung werden möglichst viele
> Trennstellen zugelassen.
> 
>> Falls irreführende/sinnentstellende Trennungen an Wortfugen aus irgend
>> einem Grund nicht markiert werden sollen, sollte das zumindest in der
>> Hausorthographie erwähnt werden.
> 
> Das Problem ist hier eher eine sinnvolle Abgrenzung von "irreführend" oder
> "sinnentstellend". Die Hausorthographie nennt Beispiele, das hilft etwas
> aber anscheinend nicht ganz.

In der Tat, ich werde in der Dokumentation etwas näher darauf eingehen.
 Die Idee war ursprünglich, die /ganz wenigen/ Trennungen, die zu
kuriosen Leseerfahrungen führen können, hart in den Trennmustern zu
verbieten.  Welche das sind, sollte möglichst nach objektiven Kriterien
entschieden werden.  So ist im Laufe der Dokumentation des Paketes
dehyph-exptl die Unterscheidung in irreführende und sinnentstellende
Trennungen entstanden.  Von Anfang an schwang die Idee mit, dass der
Autor wählen können soll, welche dieser Trennungen unterdrückt werden
und welche nicht.  Mit pdfTeX geht das allerdings nicht, daher werden
sämtliche dieser Trennungen unterdrückt.

Wie sich inzwischen herausgestellt hat, ist die Annahme, es handele sich
nur um ganz wenige Trennungen, falsch.  Zur Zeit sind ca. 2100 Wörter
mit einem Punkt markiert, wovon ein Viertel nach einer Trennung nach
Dreikonsonantenregel liegen.  Bleiben etwa 1500 explizit unterdrückte
Trennungen.  Das sind zwar immer noch verhältnismäßig wenige, allerdings
deutlich mehr als ursprünglich erwartet und es ist noch kein Ende abzusehen.

Hier mal die Idee der Unterscheidung:

* Sinnentstellende Trennungen führen zu plausiblen Teilwörtern,
  die weit vom ungetrennten Wort abweichen.  Bei Leser werden
  dadurch vom Inhalt des Textes abweichende Assoziationen geweckt
  und Synapsen aktiviert, die bei anderer Trennung nie aktiviert
  worden wären.  Solange diese Synapsen aktiv sind, ist die
  Konzentration auf den eigentlichen Inhalt des Textes gemindert.

      bein-             Talent-           Spargel-
      halten            wässerung         der

  In diese Gruppe zählen auch die anstößigen Trennungen.  Eine
  Unterteilung ist aber nicht unbedingt nötig, sinnentstellende
  Trennungen sollten immer vermieden werden.

* Irreführende Trennungen mindern die Konzentration des Lesers
  weniger nachhaltig.  Es gibt mehrere Arten irreführender
  Trennungen:

  + Es entstehen plausible Teilwörter, die allerdings nahe bei
    der Bedeutung des ungetrennten Wortes liegen:

      Bürgerin-         Atomen-           Elektro-
      itiative          ergie             nikriese

  + Es entstehen Teilwörter, die syntaktisch plausibel sind, aber
    keinen Sinn ergeben:

      Gehörner-         Beschwerdein-     Rücker-
      ven               stanz             stattung

  + Es entstehen sogenannte Pseudowörter,
<URL:http://de.wikipedia.org/wiki/Pseudowort>:

     Kafkaken-
     ner

    Zwischen den letzten beiden Fällen besteht aber kein großer
    Unterschied.  In beiden Fällen ist der Fehler bereits am
    Zeilenende erkennbar.

Wie bereits erwähnt, halte ich den Aufwand, den irreführende Trennungen
beim Lesen bereiten, für geringer als bei sinnentstellenden.  Bei
irreführenden Trennungen fällt ein einmaliger zusätzlicher Aufwand beim
Erfassen der Wortbedeutung an.  Sinnentstellende Trennungen haben
dagegen einen längerwirkenden Effekt.

Ich sehe inzwischen zwei Gründe, irreführende Trennungen möglicherweise
nicht mehr hart zu unterdrücken:

  * Es betrifft insgesamt mehr Wörter als ursprünglich erwartet.
    Je öfter man die Wortliste durchsieht, desto mehr unschöne
    Trennungen fallen einem auf.  Den Anspruch, die kleine Menge
    von vielleicht einhundert kuriosen Trennungen vollständig zu
    unterdrücken, können wir nicht so einfach erfüllen.

  * Sinnentstellende und irreführende Trennungen sind grammatisch
    zulässig.  Das Unterdrücken geschieht aus einem stilistischen
    Motiv und ist daher ein gewisser Fremdkörper.  Programme, die
    diese Unterscheidung nicht erlauben, sind unzureichend.
    Autoren wissen in der Regel um diesen Mangel und können
    Trennungen bei Bedarf gezielt beeinflussen (\hyphenation).

Für LuaTeX könnte man ein Paket schreiben, welches per expliziter
Mustersätze nachträglich irreführende und sinnentstellende Trennungen
gezielt unterdrückt, ohne dazu vollständige Mustersätze zu benötigen.
(Die Mustersätze müssten auch nicht in language.dat o.ä. aufgeführt
werden.)  Mit pdfTeX ist das jedoch nur über vollständige Mustersätze
möglich.

Bevor wir über den Sinn und Unsinn der Unterdrückung irreführender
Trennungen weiterstreiten, schlage ich vor, zunächst die bisher
markierten Wörter genauer zu kategorisieren.  Welches Zahlenverhältnis
besteht zwischen sinnentstellenden und irreführenden Trennungen?

Viele Grüße,
Stephan Hennig


>> [1] Anders als die Commitbeschreibung aussagt, handelt es sich hier eher
>> um eine irreführende Trennung.
> 
> Selbst "irreführend" finde ich eine zu weitgehende Beschreibung:
> 
>   Altersteil-
>   
> ist für mich eindeutig ein unvollständiges Wort ohne daß ich mich bei der
> Deutung in eine Richtung gewiesen sehen welche die Fortsetuung "zeit"
> unwahrscheinlich erscheinen läßt. (Ich würde es noch nicht einmal
> "verwirrend" oder "irritierend" nennen.)
> 
> ...
> 
>> Da zuvor niemand meiner Bitte nachgekommen ist, eine neue Version
>> rechtzeitig für TeX Live 2014 hochzuladen, habe ich das gestern abend
>> erledigt (Commit ae03e49).  Ob das noch rechtzeitig war, weiß ich bisher
>> nicht.  
> 
> Danke.
> 
>> Möglicherweise ist Altersteil.zeit nun jedenfalls Teil von TL2014.
> 
> Schade.
> 
>> [2] Ich weiß, Nachweis durch Behauptung.  Das Problem haben wir aufgrund
>> schwacher Datenlage ständig.
> 
> (Daher meine Erwiederung durch Gegenbehauptung. Nun haben wir ein Patt ;-)
> 
> Viele Grüße
> 
> Günter
> 
> 
> 




Mehr Informationen über die Mailingliste Trennmuster