[Trennmuster] Entscheidungsmuster für Binnen- und Schluss-S in Frakturschriften

So Feb 5 20:31:53 CET 2012

Hallo Stephan,

On  3.02.12, Stephan Hennig wrote:
> Am 01.02.2012 23:27, schrieb Guenter Milde:
> > On 30.01.12, Stephan Hennig wrote:

...

> >> Meinst du, die Unterscheidung Rund-s/Lang-s ließe sich rein formal
> >> durch Regeln erschlagen?
> > 
> > Wenn ein Trennalgorithmus existiert, der ein Wort mit eingetragenen
> > Haupt- und Nebentrennstellen zurückliefert, kann die S-Schreibung mit
> > einfachen Regeln bestimmt werden. Die Zahl der Ausnahmen (wie
> > Pilſner) ist beschränkt, Algorithmus und Ausnahmelisten hätten Platz
> > in einem kleinen Lua-Paket.
> > 
> > Schwieriger wird es, wenn der Trennalgorithmus nach "guten" und
> > "weniger guten" Trennstellen unterscheidet, weil diese Unterscheidung
> > deutlich weniger mit den Regeln zur S-Schreibung korreliert.

> Ich vermute, eine Verquickung von Substitution (Lang-s) und Trennung
> wären nicht die Art von Regeln, die Taco bisher im Blick hat.

Eine Verquickung ist auch nicht nötig. Nötig ist, daß der Trennalgorithmus

* für jedes Wort "angeschmissen" werden kann (ohne daß es dazu über die
  Zeile hinausragen muß). Für einen in Lua implementierten Trennalgorithmus
  bedeutet dies, daß er mit einer Lua-Funktion aufzurufen sein sollte. Da
  sehe ich kein Problem.

* Alle Trennstellen des übergebenen Wortes zurückliefert und dabei nach
  Haupt- und Nebentrennstellen unterscheidet. 

  Da 

  * die Zerlegung nach Wortbestandteilen sowieso Teil eines sinnvollen
    Trennalgorithmus für die deutsche Sprache ist (meiner Meinung nach
    jedenfalls) und

  * die Kategorie (Haupt- oder Nebentrennstelle) Einfluß auf die Wichtung
    der Trennstellen hat

  dürfte es nicht zu großen Mehraufwand darstellen, diese Information im
  Rückgabewert verfügbar zu machen.

Hypothetisches Beispiel:

  determine_hyphens("Ausnahmeliste", "de_1901") 
  -> "Aus=nah-me=li-ste"

  determine_hyphens("Ausnahmeliste", "de_1996") 
  -> "Aus=nah-me=lis-te"

Mit beiden Rückgabewerten ist es einfach, die richtige Schreibung
"Ausnahmeliſte" zu ermitteln.  

> Wie gesagt, die Alternative wären Lang-s- bzw. Rund-s-Muster (ich bin
> mir momentan nicht sicher, welche sinnvoller wären) als vorgeschaltete
> Stufe zur Worttrennung.  Ich vermute, dass solche Muster -- ebenso wie
> mögliche Ligaturmuster -- sehr klein wären.  Eine Ausnahmeliste wäre
> dann nicht nötig.

"vorgeschaltete Stufe"? 

Ein Lang-s/Rund-s Algorithmus auf Musterbasis kann vollkommen unabhängig
von der Worttrennung arbeiten.

Natürlich sollte die s-ſ-Ersetzung wegen der unterschiedlichen Breite der
Glyphen vor der Absatzformatierung erfolgen. Für die Bestimmung optimaler
Trennstellen kann ein rückgewandeltes Wort an den Trennalgorithmus
übergeben werden, so daß keine zusätzlichen Lang-ſ-Trennmuster
erforderlich sind.

> > Die Verbindungen ss, sp, st und sz werden zu ſſ, ſp, ſt und ſz auch
> > wenn sie durch eine Nebentrennstelle getrennt sind.
...
> > Aber: s bleibt rund vor einer Haupttrennstelle, im Auslaut und nach
> > Vorsilben wie (r)aus-, dis-, konfis-, ple-bis- auch wenn p, s, t oder
> > z folgt:

> Es gibt noch schöne Sonderregeln für die Vorsilbe 'trans'. :-) 

die aber mit den Trennregeln korrelieren :-)

> Ich vermute aber, dass Muster hier einfacher zu handhaben wären.  Man
> braucht nicht nach vorn oder hinten gucken und über Prioritäten bei der
> Anwendung des Regelwerks braucht man sich auch keine Gedanken zu
> machen. Aber Probieren geht über Studieren.

Ob für die Implementierung in einem Lua-Paket Muster oder Regel sinniger
sind, kann ich jetzt nicht sagen. Auf jeden Fall hilft eine Wortliste
mit klassifizierten Haupt-/Nebentrennstellen erheblich bei der Erstellung
eines "lang-ſ-Korpus" als Ausgangspunkt und Referenz für verschiedenste
S-Schreibungs-Automatismen.

mit freundlichen Grüßen

Günter