[Trennmuster] langes-S
Guenter Milde
milde at users.sf.net
Di Mär 28 12:32:29 CEST 2023
Am 28.03.23 schrieb Werner LEMBERG:
> >> Das Skript „s2long-s.py“ brauchte zunächst mal eine Option, die die
> >> Wörter *mit Trennzeichen* ausgibt, sodass sie für die
> >> patgen-Eingabe verwendet werden können.
> >
> > Nun habe ich eine entsprechende Option (--keep-hyphens oder -k) in
> > s2long-s.py eingebaut.
> Danke schön!
> > Die Frage ist nun, ob s2long-s.py bei der Trennmustererzeugung aus
> > extract-tex.pl oder direkt aus dem Makefile aufgerufen werden soll.
> Mein Gefühl sagt mir, daß eine Einbindung im Makefile sinnvoller ist,
> in guter alter UNIX-Filter-Tradition.
Ich bin gerade dabei, die lang-S Skripte durchzusehen und zu erweitern.
Der Plan
* Umbenennung der Pseudo-Trenn-Muster (auſsage == aus-sage), welche für die
Wandlung Texten in Fraktur-Vorlagen geeignet sind zur
"Freigabe" des Namensteils "Latf"¹ für "richtige" Trennmuster
(die neuen mit ſ in den Wörtern).
Motiv: Einheitlichkeit -- "echte" **Trenn**muster werden mit BCP-47
Sprachtags benannt (de-1901, de-CH-1901, de-Latf-1901, ...),
"quasi" Trennmuster (Lang-S und Ligaturaufbruch) mit informellen
Bezeichnern.
¹"Latf" ist das offizielle Kürzel für "lateinische Schrift, Fraktur"
* Ein neues Python-Skript welches `s2long_s.py` nutzt um eine Kopie der
Original-"wortliste" mit Einträgen in Lang-S-Orthographie zu erstellen.
Sprachvarianten: de-Latf-1901 und de-1996-Latf:
* in Großschreibung (x-versal) wird nicht zwischen s und ſ unterschieden,
* für die Schweizer ß-Ersatzschreibung fehlen uns Belege und Regeln wie
das Ersatz-ss in Fraktur zu schreiben ist (bei Bedarf kann das später
ergänzt werden).
* "make" Ziel für die generierte "wortliſte"
Namensvorschläge:
exzerpte/wortliste-Latf
exzerpte/wortliſte
exzerpte/wortliste-lang-s
Rationale:
* Die s-ſ-Wandlung ist zeitaufwendig, daher lohnt es Zwischenschritte zu
speichern und im Verzeichnis für generierte Dateien "exzerpte/" abzulegen.
Eine explizit vorliegende Liste kann auch "händisch" auf Probleme
untersucht werden.
Die "wortliſte" kann dann mit den vorhandenen Skripten zur Erzeugung
von Trennmustern für "de-Latf-*" genutzt werden.
Für "gemischte" Pattern ("normale" Orthographie und "Latf") ist es
trivial, die Einträge mit "ſ" aus der "wortliſte" zu extrahieren und an
die "wortliste" anzuhängen.
Günter
Mehr Informationen über die Mailingliste Trennmuster