[Trennmuster] Woerter mit zwei und drei Buchstaben
Guenter Milde
milde at users.sf.net
Di Jul 29 12:59:04 CEST 2014
Lieber Henning, liebe Trennmustler,
On 29.07.14, Stephan Hennig wrote:
> Am 24.07.2014 22:11, schrieb Guenter Milde:
> > On 23.07.14, Stephan Hennig wrote:
...
> Und gemeint war 'Aus-schuß'. :-) Die reformierte Rechtschreibung kam
> mir bei dem schnell gesuchten, einfachen Wort in die Quere. Schreiben
> würde ich gebrochene Texte jedoch in traditioneller Rechtschreibung.
> Einen Bedarf für automatische Lang-s-Wandlung in reformierter
> Rechtschreibung (mit 'Aus-schu-ss') sehe ich dennoch, da mit der Zeit
> wohl immer weniger traditionelle Rechtschreibung konsumiert und
> produziert wird.
Ist ja auch schon so geplant. Der Unterschied ist gar nicht so gewaltig, da
die Reform der Silbentrennung die Lang-S-Schreibung nicht beeinflußt sondern
nur anders geschriebene Wörter zu berücksichtigen sind - es
gibt also keine Inkompatibilitäten und wir könnten überlegen, die
automatische Konversion "reformunabhängig" anzugehen.
Allerdings gibt es keine verbindlichen Regeln für die Lang-S-Schreibung in
de-1996. (Der neue Duden hat Regeln, aber ist nicht mehr die Autorität, das
offizielle Regelwerk schweigt sich aus.)
Generell wird für Schluss-ss die Schreibung »ſs« empfohlen (Ausſchuſs).
Das entspricht der pre-1901-Schreibung, die z.B. auf alten Karten von
Meiſsen zu sehen ist und der ursprünglichen Empfehlung, im Antiquasatz
fehlendes »ß« durch »ſs« (und nur wenn auch »ſ« fehlt durch »ss«) zu
ersetzen. Manche gebrochenen Fonts ligieren ſs dann auch wieder zu ß.
Nicht eindeutig ist »sst«, da hier das zweite S kein Schluss-S ist:
Von den Varianten
a) ſſt (paſſt)
b) ſst (paſst)
bin ich eher für a).
Die Schweizer ß-Ersetzungen (schliessen, schliesst) würde ich im
Gegensatz dazu mit ſs schreiben (paſſen, paſſŧ aber schlieſsen, schlieſst).
(Gegenwärtig ist Schweiz noch nicht im Skript fertig implementiert.
GROSSSCHREIBUNGEN haben natürlich kein langes ſ.)
...
> > Letztendlich ist es gar keine Sonderbehandlung mehr und auch nur eine
> > Wandlung:
> >
> > # Wandle in jedem Teil alle klein S zu Lang-S, außer am Schluss:
> >
> > parts = [re.sub(u's(.)', ur'ſ\1', part) for part in parts]
> Reguläre Ausdrücke stehen in LuaTeX für Knotenlistenmanipulationen
> leider nicht zur Verfügung. Da muss alles von Hand gemacht werden.
Aber die Unterscheidung Stringmitte oder Stringende müßte doch auch mit
den Lua-Pattern möglich sein. Oder sind die Wörter in LuaTeX-Knoten keine
Strings? Können sie dann wenigstens für die Verarbeitung in Strings
gewandelt werden?
> > Aber natürlich sind auch Lang-S-Muster möglich.
> Die wäre am einfachsten zu handhaben. Aber wegen deines Arguments
> bezüglich Ligaturen (siehe weiter unten) bin ich momentan zwiegespalten,
> wie man mit dem langen s am besten umgeht.
Das Lange S hat definitiv andere Regeln als die Ligaturverhinderung: Auch
bei "normalen" Sprechsilben steht am Ende generell ein Rund-S, nur in
speziellen Kombinationen (sp, st, ss, manchmal sz) nicht: Weſ-pe, aber
Antagonis-men
...
> > Sind "hyphens" auch am Wortende zulässig? Wir haben sowohl "ſehen",
> > als auch die Abkürzung "abſ" (absolut). Im Gegensatz dazu gibt es
> > keinen Fall von Rund-S am Wortanfang.
> Im Padrinoma-Paket sind sie es. Bei Patgen weiß ich es nicht genau,
> aber da es die Wortrandmarkierung '.' gibt, vermute ich, dass es mit
> \lefthyphenmin=0 bzw. \righthyphenmin=0 geht. Damit dürften Muster wie
> .1s
> oder im anderen Fall
> .abs1.
> herausfallen. Bei der Konvertierung muss man in jedem Fall noch prüfen,
> ob in der Eingabe tatsächlich ein Kleinbuchstabe steht.
OK.
> >> Auch bei der Ligaturbehandlung bin ich dafür, alle Intelligenz vor
> >> Patgen und in TeX lediglich Ligaturmuster anzuwenden.
> >
> > Was aber auch keinen Grund darstellt, prinzipiell untrennbare Wörter
> > in die Wortliste aufzunehmen - wir können für Wörter mit weniger als
> > 4 Buchstaben aus der Trennliste keine Information gewinnen, die nicht
> > in einer simplen Wortliste (aspell dump oder was auch immer) auch
> > vorhanden ist.
> Ich war mir nicht sicher, ob es nicht Abkürzungen gibt, die ohne Ligatur
> geschrieben werden sollten.
Die gibt es sicher, selbst wenn »Aufl.« mit Ligatur gesetzt werden soll.
> Ich dachte da zum Beispiel an "eff.", aber wie ich sehe, ist die erste
> Trennung in "effektiv" als Stammtrennung markiert.
Meinst Du mit "Stammtrennung" eine Trennung innerhalb eines Morphems
("normale" Sprechsilben), oder am Anfang/Ende eines Stammes?
...
> > Steuern der Ligatur bedeutet also praktisch immer aktives Verhindern
> > durch Einfügen von Trennern, »"|« mit Babel-German, »\-\hspace{0pt}« sonst
> > (mit TeX) und \u200C ZERO WIDTH NON-JOINER for Unicode.
> In LuaTeX ersetzt man einen Glyph-Knoten, der eine Ligatur
> repräsentiert, durch Kopien seiner ursprünglichen Komponenten (diese
> Information ist in der Knotenliste zu dem Zeitpunkt noch enthalten).
OK.
...
> Das stimmt. Dieser Vorteil deiner Herangehensweise war mir bisher
> völlig entgangen. Und wenn man für Ligaturen auf
> Haupttrennstellenmuster zurückgreift, wäre es wiederum stimmig,
> denselben Weg auch für Lang-s/Rund-s einzuschlagen. Es gibt allerdings
> einen Unterschied zu Ligaturen: Während sich falsche Ligaturen in
> unmittelbarer Nachbarschaft zu Haupttrennstellen befinden und daher
> leicht aufgefunden werden können, trifft dies für Lang-s nicht zu,
> sondern nur für die weniger interessanten Rund-s. Das erfordert einen
> zweiten Durchlauf über die Knotenliste, wodurch dieses Verfahren
> langsamer werden dürfte als mit expliziten Lang-s-Mustern.
Wie schon oben gesagt, die Lang-S-Schreibung hat noch viele zusätzliche
Fälle, wo nach "normalen" Trennstellen geschaut werden muß sowie eine Reihe
von "Ausnahmeregeln", die sinnvollerweise vor dem patgen-Lauf berücksichtigt
werden.
> >> Siehe oben, 's' ohne folgende Trennstelle wird Lang-s. Gibt es Fälle,
> >> wo diese Logik versagt?
> >
> > Ja:
> >
> > exceptions = (u'Abſ', # Abſatz/Abſender
> > u'Ausg', # Aus<gabe
> > u'beſ', # beſonders
> > u'coſ', # Ko<ſinus
> > u'coſec', # Ko<ſekans
> > # u'daſ', # da<ſelbſt (nicht von Artikel "das" zu unterscheiden!)
> > u'desgl', # des<gleichen
> > u'Diſſ', # Diſſertation
> > u'hrsg', # herausgegeben
> > u'Hrsg', # Herausgeber
> > u'Hſ', # Handschrift
> > u'Maſſ', # Maſſachuſetts
> > # u'Miſſ', # Miſſiſippi (nicht von Miſs (Frln.) zu unterscheiden)
> > # TODO: N-Z
> > )
> In diesen Beispielen kann ich leider keinen Widerspruch zu meiner These
> erkennen.
Abſ. - Lang-S am Wortende (aber sonst immer Rund: aus, Haus, Los, los, ...!)
Ausg. - Rund-S ohne Trennstelle (sonst Lang)
desgl. - Rund-S ohne Trennstelle
hrsg. - Rund-S ohne Trennstelle,
...
Aber wie hält's der /Dresd-ner/ -- langes oder rundes s?
Das ist rund, da ein E entfallen ist. Diese und 50-100 andere Ausnahmen sind
im s2lang-s.py Skript dokumentiert und implementiert.
Viele Grüße,
Günter
Mehr Informationen über die Mailingliste Trennmuster