[Trennmuster] Trennstellkategorien

Stephan Hennig mailing_list at arcor.de
Fr Mär 16 01:52:54 CET 2012


[Ich hänge mit meinen Antworten etwas hinterher, möchte aber trotzdem
hier antworten.]


Am 15.03.2012 13:57, schrieb Guenter Milde:
> On 14.03.12, Werner LEMBERG wrote:
> 
>> > I propose '|' for suffixes (Vorsilben), z.B.
> 
>> ... ah, another category :-)
> 
> Genau.
> 
> Für Ligaturunterdrückung (L) Lang-S-Schreibung (S) und Silbentrennung (T)
> ist insbesondere die Unterscheidung zwischen normaler Trennung und
> Trennung nach Wortteilen wichtig:
> 
> * normal     L: höf-lich -> höflich
>              S: es-sen  -> eſſen
>              T: es-sen  -> es-sen
> 
> * Präfix     L: Auf|la-ge -> Auf\/lage
>              S: Aus|sa-ge -> Ausſage
>              T: An|den-ken -> An--den-ken
> 
> * Wortfuge   L: Chef=ideo-lo-ge         -> Chef\/ideologe
>              S: Eis=schicht             -> Eisſchicht
>              T: Be|gleit=er|schei-nung  -> Be-gleit--erschei-nung
> 
> Für die anvisierten Anwendungsfälle kann die Unterscheidung Präfix vs.
> Wortfuge auch über eine Wichtung der Haupttrennstellen erfolgen:
> 
>   Be=gleit==er=schei-nung  -> Be-gleit--erschei-nung
> 
> Dabei geht allerdings die Unterscheidung verloren, ob es sich bei dem
> Wort um ein Kompositum oder ein Derivat handelt.

Weshalb?  Weil in mehrfach zusammengesetzten Wörtern auch die
Kompositagrenzen gewichtet werden sollen:  Donau=dampf==schiff===fahrt ?


> Mir scheint eine separate Kategorie in der "master" Wortliste einfacher
> zu lesen und zu pflegen und "einfach richtig".

Aus dem Bauch heraus, mir auch.


> Aber ich bin kein Germanist und lasse mich auch anderweitig
> überzeugen.

Ebenfalls. :-)


> * Gibt es unerwünschte Wortfugen? (Dann bräuchten wir '-.' vs. '=.'.)

Vorstellbar ist das, da Teilwörter in Komposita unterschiedlich fest
aneinandergefügt sind.  Man könnte daher Donaudampf-schifffahrt,
Autobahnrast-stätte oder Baum-wollplantage als leicht irreführend
ansehen.  Ich denke allerdings, dass wir diesen Fall nicht zu
berücksichtigen brauchen.  Der Aufwand wäre enorm, und der Nutzen eher
gering.  Als übermäßig nervend habe ich solche Trennungen nicht in
Erinnerung.


> * Möchten wir die "Unerwünschtheit" wichten ('-.', '-..', '-...' …)
>   oder kategorisieren?

Vorausgesetzt die unterschiedlichen "Unerwünschtheiten" lassen sich im
Satzprogramm unabhängig voneinander ein- und ausschalten (und ich bin
überzeugt davon, dass sich das auf recht einfachem Wege bewerkstelligen
ließe), so wäre aus Nutzersicht eine Kategorisierung wahrscheinlich
vorzuziehen.  Das Verhalten wäre leichter durchschaubar.  Oder verstehe
ich die Frage falsch?  Ich fürchte, ja. :(


>   Gibt es eine scharfe, allgemein anerkannte Unterscheidung von
>   "unerwünscht", "sinnverwirrend" und "sinnentstellend" oder sind die
>   Übergänge fließend?

Wahrscheinlich ist der Übergang fließend.  Man könnte die Fälle
vielleicht folgendermaßen unterscheiden (kategorisieren).  Bei allen
betrachteten Trennungen handelt es sich um irreführende Trennungen, da
die tatsächlichen Teilwörter nicht leicht erkannt werden können.

Als minderschwer könnte man die irreführenden Trennungen ansehen, bei
denen bei falscher Interpretation/Betonung eines Teilwortes wenigstens
der Wortstamm gleich bleibt:

    Elektro.nikriese
    Bürgerin.itiative

Schwerer wiegt die Irreführung, wenn der Wortstamm bei falscher Lesart
falsch oder gar nicht erkannt wird (sinnentstellende Trennung):

    bein.halten
    Kafkaken.ner
    Talent.wässerung
    Spargel.der
    Textil.lustrationen
    Gehörner.ven

Je nach typographischer Gegebenheit könnte man diese Trennungen
verhindern wollen, um die Lesbarkeit des Textes zu erhöhen.  Man könnte
jedoch unter schwierigen Bedingungen (schmale Kolumnen) die Trennungen
einer oder beider Kategorien auch zulassen wollen.

Als dritte Gruppe könnte man sinnentstellende Trennungen mit anstößiger
Bedeutungen ansehen.  Diese möchten man wohl in jedem Falle
ausgeschlossen wissen.

    Urin.stinkt
    Anal.phabet

Enthält letztere Gruppe mehr als diese zwei Wörter?


>   Ist eine "Nottrennstelle" (Tel-tow_er) genau definiert?

Ja, im Leipziger Duden: K 88.  (Den hast du doch, oder?)  Teltow|er ist
jedoch eine andere Regel, die ich aber erst morgen nachschlagen kann.


>   Sollten wir
>   sie anders als andere zu unterdrückende Trennstellen markieren
>   (z.B. mit '_')?

Die Nottrennungen des Leipziger Dudens betreffen eher orthographische
als semantische Dinge (im Gegensatz zu den oben diskutierten
irreführenden Trennungen).  Von daher wäre eine Unterscheidung schon
nicht schlecht.  Um die Zahl der benötigten Markierungen nicht
explodieren zu lassen, können wir aber auch zunächst analog zu · ein
allgemeines Zeichen für unkategorisierte zu ignorierende Trennstellen
verwenden.  Der bereits verwendete Punkt . fiele mir da ein.


> * Bis zu welchem Abstand von einer Haupttrennstelle wird die Trennung
>   automatisch unterdrückt?

Idealerweise ließe sich der Abstand auf Dokumentebene steuern.  Neben
einer musterbasierten Trennung soll laut Taco in LuaTeX in Zukunft auch
eine regelbasierte Worttrennung möglich sein.  Wenn man nun nach dem
Anwenden der Muster und dem Auffinden aller möglichen Trennstellen eines
Wortes diese nochmals analysieren könnte und einzelne Trennstellen
ausschließen könnte, wäre das toll.  Ich weiß aber nicht, ob Taco diesen
Anwendungsfall bisher im Blick hat.


>> [For non-wortliste users: a hyphenation point is `near' if the
>>  distance is smaller than three characters.]
> 
>   Ist dieser Abstand (z.B. beim Erzeugen der Trennmusterdateien)
>   konfigurierbar?
> 
>   -> Ab welchem Abstand sollte eine zusätzliche Markierung zu
>   unterdrückender Trennstellen erfolgen? (Abwägen: Rauschen vs.
>   Informationsverlust)

Wenn das oben erwähnte Vorgehen möglich wäre, brauchten diese Trennungen
nicht ausdrücklich markiert zu werden, oder?  TeX82 könnte solche
Trennungen dann zwar nicht unterdrücken.  Aus meiner Sicht wäre das aber
zu verschmerzen.

(Per Skript ließe sich die Eingabewortliste für Patgen auch entsprechend
manipulieren.  Dann allerdings mit einem hart-kodierten Abstand.
Allerdings stoßen wir bei allzu großzügigem Unterdrücken vermutlich bald
an die Grenzen in Patgens Tennstellenbewertungen.  Wir haben ja schon
einige 8er.)

Viele Grüße,
Stephan Hennig



Mehr Informationen über die Mailingliste Trennmuster