[Trennmuster] Kombinierende Zeichen in der TeX Eingabe
Werner LEMBERG
wl at gnu.org
Di Okt 31 23:13:10 CET 2023
>> > oder Nachbearbeitung der Muster: ä1rö -> ä1rö, a(U+0308)1ro(U+0308)
>> > (aus 1 mach 2)?
>
>> Wohl letzteres – das müßte doch eigentlich ausreichen, oder?
>
> Wie gesagt, es kann Probleme mit Umlauten am Wortanfang oder -ende
> geben, da dann für den Trenn-Algorithmus 2 Zeichen am Rand stehen
> und Ä-ther oder Windb- ö getrennt werden könnte.
Hmm. Inwieweit ist das anders als die Auflösung in »Aether« oder
»Windboe«, was wir bereits haben?
> Kochrezept für die Nachbearbeitung (pseudo code):
>
> for pattern in patterns:
> pattern_nfd = unicodedata.normalize('NFD', pattern)
> print(pattern)
> if pattern_nfd != pattern:
> print(pattern_nfd)
Jawoll.
> Für 8-bit TeX mit neuen Mustern (dehyph-exptl) muss die Umkodierung
> UTF-8 → T1 angepasst werden. (Passiert die extern oder mit dem
> Framework zum on-the-fly-Konvertieren des hyph-utf8 Pakets?)
Die Umkodierung geschieht beim Laden der Patterns mittels der Datei
`conv-utf8-ec.tex`.
> Für die Musterdatei wäre es sauberer, wenn das Aussortieren des
> gesamten Musters erfolgt, sobald ein undefiniertes Zeichen erkannt
> wird (anstelle von \errmessage{Hyphenation pattern file
> `@FILE_NAME at -@DATE at .tex' corrupted!}%).
Ich habe darüber nachgedacht und keine Lösung gefunden, die einfach zu
implementieren wäre, daher mein Vorschlag für ein `\x`-Makro, was ganz
simpel ist. Fällt Dir was besseres ein?
Werner
Mehr Informationen über die Mailingliste Trennmuster