[Trennmuster] Entscheidungsmuster für Binnen- und Schluss-S in Frakturschriften
Guenter Milde
milde at users.sf.net
So Feb 5 20:31:53 CET 2012
Hallo Stephan,
On 3.02.12, Stephan Hennig wrote:
> Am 01.02.2012 23:27, schrieb Guenter Milde:
> > On 30.01.12, Stephan Hennig wrote:
...
> >> Meinst du, die Unterscheidung Rund-s/Lang-s ließe sich rein formal
> >> durch Regeln erschlagen?
> >
> > Wenn ein Trennalgorithmus existiert, der ein Wort mit eingetragenen
> > Haupt- und Nebentrennstellen zurückliefert, kann die S-Schreibung mit
> > einfachen Regeln bestimmt werden. Die Zahl der Ausnahmen (wie
> > Pilſner) ist beschränkt, Algorithmus und Ausnahmelisten hätten Platz
> > in einem kleinen Lua-Paket.
> >
> > Schwieriger wird es, wenn der Trennalgorithmus nach "guten" und
> > "weniger guten" Trennstellen unterscheidet, weil diese Unterscheidung
> > deutlich weniger mit den Regeln zur S-Schreibung korreliert.
> Ich vermute, eine Verquickung von Substitution (Lang-s) und Trennung
> wären nicht die Art von Regeln, die Taco bisher im Blick hat.
Eine Verquickung ist auch nicht nötig. Nötig ist, daß der Trennalgorithmus
* für jedes Wort "angeschmissen" werden kann (ohne daß es dazu über die
Zeile hinausragen muß). Für einen in Lua implementierten Trennalgorithmus
bedeutet dies, daß er mit einer Lua-Funktion aufzurufen sein sollte. Da
sehe ich kein Problem.
* Alle Trennstellen des übergebenen Wortes zurückliefert und dabei nach
Haupt- und Nebentrennstellen unterscheidet.
Da
* die Zerlegung nach Wortbestandteilen sowieso Teil eines sinnvollen
Trennalgorithmus für die deutsche Sprache ist (meiner Meinung nach
jedenfalls) und
* die Kategorie (Haupt- oder Nebentrennstelle) Einfluß auf die Wichtung
der Trennstellen hat
dürfte es nicht zu großen Mehraufwand darstellen, diese Information im
Rückgabewert verfügbar zu machen.
Hypothetisches Beispiel:
determine_hyphens("Ausnahmeliste", "de_1901")
-> "Aus=nah-me=li-ste"
determine_hyphens("Ausnahmeliste", "de_1996")
-> "Aus=nah-me=lis-te"
Mit beiden Rückgabewerten ist es einfach, die richtige Schreibung
"Ausnahmeliſte" zu ermitteln.
> Wie gesagt, die Alternative wären Lang-s- bzw. Rund-s-Muster (ich bin
> mir momentan nicht sicher, welche sinnvoller wären) als vorgeschaltete
> Stufe zur Worttrennung. Ich vermute, dass solche Muster -- ebenso wie
> mögliche Ligaturmuster -- sehr klein wären. Eine Ausnahmeliste wäre
> dann nicht nötig.
"vorgeschaltete Stufe"?
Ein Lang-s/Rund-s Algorithmus auf Musterbasis kann vollkommen unabhängig
von der Worttrennung arbeiten.
Natürlich sollte die s-ſ-Ersetzung wegen der unterschiedlichen Breite der
Glyphen vor der Absatzformatierung erfolgen. Für die Bestimmung optimaler
Trennstellen kann ein rückgewandeltes Wort an den Trennalgorithmus
übergeben werden, so daß keine zusätzlichen Lang-ſ-Trennmuster
erforderlich sind.
> > Die Verbindungen ss, sp, st und sz werden zu ſſ, ſp, ſt und ſz auch
> > wenn sie durch eine Nebentrennstelle getrennt sind.
...
> > Aber: s bleibt rund vor einer Haupttrennstelle, im Auslaut und nach
> > Vorsilben wie (r)aus-, dis-, konfis-, ple-bis- auch wenn p, s, t oder
> > z folgt:
> Es gibt noch schöne Sonderregeln für die Vorsilbe 'trans'. :-)
die aber mit den Trennregeln korrelieren :-)
> Ich vermute aber, dass Muster hier einfacher zu handhaben wären. Man
> braucht nicht nach vorn oder hinten gucken und über Prioritäten bei der
> Anwendung des Regelwerks braucht man sich auch keine Gedanken zu
> machen. Aber Probieren geht über Studieren.
Ob für die Implementierung in einem Lua-Paket Muster oder Regel sinniger
sind, kann ich jetzt nicht sagen. Auf jeden Fall hilft eine Wortliste
mit klassifizierten Haupt-/Nebentrennstellen erheblich bei der Erstellung
eines "lang-ſ-Korpus" als Ausgangspunkt und Referenz für verschiedenste
S-Schreibungs-Automatismen.
mit freundlichen Grüßen
Günter
Mehr Informationen über die Mailingliste Trennmuster