[Trennmuster] langes-S

Guenter Milde milde at users.sf.net
Di Mär 28 12:32:29 CEST 2023


Am 28.03.23 schrieb Werner LEMBERG:

> >> Das Skript „s2long-s.py“ brauchte zunächst mal eine Option, die die
> >> Wörter *mit Trennzeichen* ausgibt, sodass sie für die
> >> patgen-Eingabe verwendet werden können.
> > 
> > Nun habe ich eine entsprechende Option (--keep-hyphens oder -k) in
> > s2long-s.py eingebaut.

> Danke schön!

> > Die Frage ist nun, ob s2long-s.py bei der Trennmustererzeugung aus
> > extract-tex.pl oder direkt aus dem Makefile aufgerufen werden soll.

> Mein Gefühl sagt mir, daß eine Einbindung im Makefile sinnvoller ist,
> in guter alter UNIX-Filter-Tradition.

Ich bin gerade dabei, die lang-S Skripte durchzusehen und zu erweitern.

Der Plan

* Umbenennung der Pseudo-Trenn-Muster (auſsage == aus-sage), welche für die
  Wandlung Texten in Fraktur-Vorlagen geeignet sind zur  
  "Freigabe" des Namensteils "Latf"¹ für "richtige" Trennmuster
  (die neuen mit ſ in den Wörtern).

  Motiv: Einheitlichkeit -- "echte" **Trenn**muster werden mit BCP-47
  Sprachtags benannt (de-1901, de-CH-1901, de-Latf-1901, ...),
  "quasi" Trennmuster (Lang-S und Ligaturaufbruch) mit informellen
  Bezeichnern.
  
  ¹"Latf" ist das offizielle Kürzel für "lateinische Schrift, Fraktur"
  
* Ein neues Python-Skript welches `s2long_s.py` nutzt um eine Kopie der
  Original-"wortliste" mit Einträgen in Lang-S-Orthographie zu erstellen.

  Sprachvarianten: de-Latf-1901 und de-1996-Latf:
  
  * in Großschreibung (x-versal) wird nicht zwischen s und ſ unterschieden,
  * für die Schweizer ß-Ersatzschreibung fehlen uns Belege und Regeln wie
    das Ersatz-ss in Fraktur zu schreiben ist (bei Bedarf kann das später
    ergänzt werden).

* "make" Ziel für die generierte "wortliſte"
  Namensvorschläge:
    exzerpte/wortliste-Latf
    exzerpte/wortliſte
    exzerpte/wortliste-lang-s

Rationale:

* Die s-ſ-Wandlung ist zeitaufwendig, daher lohnt es Zwischenschritte zu
  speichern und im Verzeichnis für generierte Dateien "exzerpte/" abzulegen.
  
  Eine explizit vorliegende Liste kann auch "händisch" auf Probleme
  untersucht werden.
  
  Die "wortliſte" kann dann mit den vorhandenen Skripten zur Erzeugung
  von Trennmustern für "de-Latf-*" genutzt werden.
  
  Für "gemischte" Pattern ("normale" Orthographie und "Latf") ist es
  trivial, die Einträge mit "ſ" aus der "wortliſte" zu extrahieren und an
  die "wortliste" anzuhängen.
  
  
Günter



Mehr Informationen über die Mailingliste Trennmuster