[Trennmuster] Kombinierende Zeichen in der TeX Eingabe
Guenter Milde
milde at users.sf.net
Di Okt 31 21:17:16 CET 2023
Am 31.10.23 schrieb Werner LEMBERG:
> > Erweiterung der Eingabeliste: rück-stän-dig -> rück-stän-dig,
> > ru(U+0308)ck-sta(U+0308)n-dig, rueck-staen-dig (aus 1 mach 3)
> >
> > oder Nachbearbeitung der Muster: ä1rö -> ä1rö, a(U+0308)1ro(U+0308)
> > (aus 1 mach 2)?
> Wohl letzteres – das müßte doch eigentlich ausreichen, oder?
Wie gesagt, es kann Probleme mit Umlauten am Wortanfang oder -ende geben, da
dann für den Trenn-Algorithmus 2 Zeichen am Rand stehen und Ä-ther oder Windb-
ö getrennt werden könnte.
Kochrezept für die Nachbearbeitung (pseudo code):
for pattern in patterns:
pattern_nfd = unicodedata.normalize('NFD', pattern)
print(pattern)
if pattern_nfd != pattern:
print(pattern_nfd)
> > Im Prinzip gehört das Thema auch auf die tex-hyphen-Liste, da es
> > viele Sprachen betrifft. Ob sich dort jemand dafür interessiert,
> > weiß ich allerdings nicht.
> Vielleicht sollten wir das dort diskutieren, wenn's bei unserer
> Wortliste funktioniert :-)
Für Xe/LuaTeX mit Unicode fonts sehe ich kein Problem. Evt. müssen die
kombinierenden Accente noch als Wort-Zeichen definiert werden, aber
wahrscheinlich sind sie es schon.
Für 8-bit TeX werden standardmäßig die alten Muster genommen, da sind wir
auch fein raus. Für 8-bit TeX mit neuen Mustern (dehyph-exptl) muss die
Umkodierung UTF-8 → T1 angepasst werden. (Passiert die extern oder mit dem
Framework zum on-the-fly-Konvertieren des hyph-utf8 Pakets?)
Günter
Mehr Informationen über die Mailingliste Trennmuster