[Trennmuster] "exotische" Buchstaben

Guenter Milde milde at users.sf.net
Mi Jun 18 23:47:23 CEST 2014


On 18.06.14, Werner LEMBERG wrote:

> > Wir können uns entscheiden, Lang-S-Schreibungen als Varianten
> > aufzunehmen (analog zu Oevre/Œvre).

> Was genau meinst Du mit »Varianten«?

Ich meine Schreibvarianten, die beide orthographisch zulässig sind, wobei
je nach Anwendungsfall ("alte" (Antiqua) oder "neue" (gebrochene)
Schrift) die eine oder andere zu verwenden ist. Anstelle zweier neuen
Spalten 'de-1901-Latf' und 'de-1996-Latf' wird die Skriptvariante in die
entsprechenden vorhandenen Spalten einsortiert:

  essen;es-sen
  eſſen;eſ-ſen
  hasten;-2-;ha-sten;has-ten
  haſten;-2-;ha-ſten;haſ-ten
  
analog zu

  Oevre;Oev-re
  Œvre;Œv-re
  
  
> > Mir geht es darum, ob der Trennalgorithmus überhaupt auf explizite
> > Lang-S-Muster angewiesen ist um Lang-S-Wörter zu trennen,
> > schließlich
> > 
> > * sind die Trennstellen der entsprechenden Rund-S-Wörter exakt gleich,
> > * ist die Wandlung ſ->s trivial,
> > * haben wir auch keine Großschreibung bei den Mustern.

> Es ist nicht ganz das gleiche: Die *Anzahl* der Rund-S-Wörter ist
> größer, also eine Obermenge.  Während das bei den in der Wortliste
> enthaltenen Wörtern egal ist, könnte es durchaus sein, daß patgen für
> »ſ« bessere Trennstellen liefert, weil »präziser« – also »Adelung«
> vs. »Heise«.

Es gibt ein prominentes Beispiel (Wachstube) und zwei exotische Fälle in
unserere Liste, wo die Lang-S-Schreibung eine Trenn-Mehrdeutigkeit
auflöst.  Diese drei Einzelfälle und die eventuelle (aber ungesicherte)
bessere Trennung in manchen Fällen der selten genutzen Lang-S-Schreibung
halte ich für keine hinreichenden Gründe für Aufnahme der
Lang-S-Varianten in die Trennmuster (mit Lang-S richtig aber mit Rund-S
falsch getrennte Wörter müßten sowieso in die Liste).

Adelung vs. Heise kenne ich nur von der ß-Schreibung.
Kannst Du das präzisieren?

> > Für 8-bit TeX brauchen wir keine Lang-S-Muster. LuaTeX kann man
> > nebenwirkungsfrei "hinbiegen". Lohnt der Aufwand für die paar
> > XeTeX-Nutzer, die mit Unicode-Fonts Fraktur schreiben?

> Ich meine ja, vor allem, da der Aufwand gering ist.  Zugegebenerweise
> läuft patgen langsamer, weil viel mehr Wörter, aber man braucht ja die
> Wörter mit »ſ« nicht immer inkludieren.

Wenn der Aufwand wirklich gering ist, spricht vor allem die Einfachheit
(keine neuen Mustersets, "works out of the box") für die Aufnahme der
Lang-S-Varianten.

Ist wirklich patgen deutlich langsamer, oder evt. der Vorlauf zum Generieren
und "Einbasteln" der Lang-S Eingabemuster?

Während `patgen` ja nur selten (und schon gar nicht bei jedem) läuft, ist zu
überlegen/prüfen, inwieweit sich der größere Mustersatz auf die Dauer eines
(La)TeX-Laufes beim Setzen "normaler" Texte auswirkt. Wenn der Unterschied
vernachlässigbar ist, bin ich für die Aufnahme der Lang-S-Varianten.

Viele Grüße

Günter



Mehr Informationen über die Mailingliste Trennmuster