[Trennmuster] Lang-S: Text-Transformation

Stephan Hennig mailing_list at arcor.de
Mo Jun 16 18:55:36 CEST 2014


Am 15.06.2014 22:08, schrieb Guenter Milde:
> On 15.06.14, Stephan Hennig wrote:
>> Am 13.06.2014 12:06, schrieb Guenter Milde:
> 
>>   make rounds
> 
> Wir wollen aber aus (einigen) runden s lange machen!

Ja, dann vielleicht

  make longs


>> Übrigens, auch wenn es logisch ist, zunächst alle s in der Eingabe in ſ
>> zu wandeln und dann per Muster die Rund-s anzuzeigen, wäre es weniger
>> aufwändig, mit den Mustern die Ersetzungsstellen direkt anzuzeigen, also
>> Lang-S-Muster zu verwenden. 
> 
> Du meinst, wir müssen hinterher nicht so viel Mühe aufwänden (sic!), wenn
> die Eingabe für patgen anstelle der Langen-eSSe Trennstriche oder
> Sternchen hat:

Nur Trennstriche.


>    ...
>    Aachens
>    ...
>    Aalfi*cher

Und die s dürfen nicht fehlen.

     Aalfi-scher   oder   Aalfis-cher


>> Dann muss die Zeichenkette (oder Knotenliste in LuaTeX) nicht noch
>> parallel nach anderen s durchsucht werden.  
> 
> Ja, dann könnten wir uns 2 simple Ersetzungsoperationen (s->ſ, s- -> s)
> sparen. Allerdings ist der Aufwand für eine simple Zeichenersetzung meines
> Erachtens vernachlässigbar gegenüber der Ersetzung nach Mustern.

Pro Zeichen schon.  Aber wenn man die Ersetzung innerhalb von LuaTeX
macht, dann summiert sich die Zeit auch über mehrere Übersetzungen
hinweg, da die Operation in jedem Lauf neu durchgeführt wird.


> Wenn wir das eindeutig runde Schluß-s weglassen, ist es ein Faktor 19:8 bei
> den Eingabemustern:

Diese Trickserei wird nicht viel helfen.  Der letzte Buchstabe muss
sowieso durch die Musteranpassung geschleust werden, da er signifikant
sein kann (Häſcher vs. Häschen).  Eine Extrabehandlung bringt nur
zusätzlichen Aufwand.


> Wie gut die Kompression bei Lang-S vs. Rund-S ist muß ausprobiert werden.

Ja, bitte.  Gern auch von Leuten, die auf der Liste bisher nur lesend in
Erscheinung getreten sind. :-)


> Was aber auch für rund-s Muster spricht, ist die bessere Lesbarkeit:

Das ist wohl wahr.  Prinzipiell haben wir vier Möglichkeiten, die Muster
zu organisieren: Lang-s/Rund-s und Markierung vor/nach dem
betreffenden Buchstaben.  Für die Programmierung bevorzugte ich zwar die
Kombination Lang-s/vor, die Kombination Rund-s/nach ergibt aber
tatsächlich die höchste Leserlichkeit der Eingabeliste.  Es wäre schön,
wenn jemand mal Zahlen zur Größe der Muster aller vier Kombinationen
ermitteln könnte.  Es wäre natürlich auch möglich, Lang-s/vor zu
verwenden, zur Sichtprüfung aber auch ein Make-Ziel für
Rund-s/nach-Muster zu erstellen ...

Viele Grüße,
Stephan Hennig



Mehr Informationen über die Mailingliste Trennmuster