[Trennmuster] 99% Kategorisiert, wie weiter

Fr Mai 9 23:41:46 CEST 2014

Am 09.05.2014 21:21, schrieb G. Milde:

> die Kategorisierung der Trennstellen ist fast geschafft (noch < 3000
> unkategorisierte Einträge).

Großartig!  Kannst du nochmal die Problemfälle zusammenfassen (am besten
im Wiki)?  Also welche Kategorisierungen noch "flexibel" sind bzw.
möglicherweise gar nicht endgültig festgelegt werden können?

> Nun müssen wir überlegen, wie wir diese Zusatzinformation möglichst
> sinnvoll nutzen.
> 
> Vorschläge:
> 
> 1 Trennmuster für Flattersatz
> 
> Im Gegensatz zum Englischen kann bei deutschen Texen wegen der vielen
> Zusammensetzungen auch im Flattersatz nicht wirklich auf Trennungen
> verzichtet werden. Andererseits sind die akzeptablen
> Zeilenlängenunterschiede deutlich größer als im Blocksatz. Für
> linksbündigen Text in normalbreiten Spalten ist daher ein
> Trennmustersatz mit nur guten° Trennstellen wünschenswert.

Eine andere Anwendung ist die Trennung von gekoppelten Wörtern auch an
inneren Wortfugen.  Das Padrinoma-Repository
<URL:https://github.com/sh2d/padrinoma> enthält ein Beispiel, welches
Trennung in gekoppelten Wörtern ermöglicht
(examples/luatex/hyphenate-with-explicit-hyphen, siehe auch
examples/README).  Durch Heraufsetzen der Mindestlänge von getrennten
Teilwörtern kann man zwar einige Präfix- und Suffix-Trennungen
vermeiden, allerdings nicht in längeren Teilwörtern, wie zum Beispiel der

  Arbeiter=Unfallver-sicherung

(= zeigt hier einen Kopplungsstrich in der Eingabe, - ist ein
automatisch eingefügter Trennstrich.)

Wünschenswert wäre hier die ausschließliche Trennung

    Arbeiter=Unfall-versicherung

Wobei hier zu erwägen wäre, in den Teilwörtern nicht alle Trennungen an
Wortfugen zuzulassen, sondern bei mehreren Wortfugen nur die mit der
jeweils geringsten Bindungsstärke.  (Ich wüsste allerdings nicht, wie
das mit Mustern zu bewerkstelligen wäre.)

> ° als Gütekriterium gelte die Bindungskraft unter Berücksichtigung
> der Länge der ungetrennten Wortteile (d.h. in der Mitte wirklich
> langer Wörter wird auch Trennung nach Sprechsilbe zugelassen).

Das sollte sich mit dem padrinoma-Paket erreichen lassen.  Was leider
nicht ohne weiteres geht, ist, zusätzliche Trennungen je nach erreichter
Güte des Absatzumbruchs zu ermöglichen.

> Ich schlage vor, daß das TeX-Paket dehyph-exptl zukünftig einen
> solchen "Haupttrennstellmustersatz" bereitstellt. Wenn gewünscht,
> kann ich ein Python-Skript erstellen, welches aus der "wortliste"
> eine Eingabedatei für patgen generiert. Die Details können dann
> anhand einer Vorversion besprochen werden.

Finde ich sinnvoll.

> 2 Lang-S
> 
> Das Lang-S-Skript kann die Wörter der Wortliste konvertieren. Für die
> Nutzung des Resultats sind verschiedene Wege möglich, einer ist ein
> aspell/hunspell Wörterbuch de-x-lang-s. Dazu fehlen noch ca. Wörter
> aus den *spell Wortlisten. Alternativ kann ich mir eine LuaTeX Lösung
> vorstellen.
> 
> 3 Ligaturauflösung

Langes S und Ligaturen sind eigentlicher Zweck des padrinoma-Pakets
(Welches kein Paket für Endnutzer ist.)

Eigentlich denke ich, dass Ligaturen nicht aufgebrochen, sondern mit
Hilfe von Mustern explizit gesetzt werden sollten.  Allerdings ist das
Repertoire an gültigen Ligaturen schriftabhängig.  Es müssten daher die
Ligaturtabellen von OTF-Schriften berücksichtigt werden, um
gegebenenfalls die tz-Ligatur in Tatze zu setzen.  Das ist ziemlich
aufwendig.

Das nachträgliche Aufbrechen von Ligaturen ist leider nicht einfacher,
da man dazu wissen müsste, welche Slots den aufzubrechenden Ligaturen
entsprechen, zum Beispiel der tz-Ligatur im Wort Tatzeuge.

Das lange S ist ein deutlich einfacheres Ziel. :-)

Viele Grüße,
Stephan Hennig