[Trennmuster] Kombinierende Zeichen in der TeX Eingabe

Guenter Milde milde at users.sf.net
Di Okt 31 21:17:16 CET 2023


Am 31.10.23 schrieb Werner LEMBERG:

> > Erweiterung der Eingabeliste: rück-stän-dig -> rück-stän-dig,
> > ru(U+0308)ck-sta(U+0308)n-dig, rueck-staen-dig (aus 1 mach 3)
> >
> > oder Nachbearbeitung der Muster: ä1rö -> ä1rö, a(U+0308)1ro(U+0308)
> > (aus 1 mach 2)?

> Wohl letzteres – das müßte doch eigentlich ausreichen, oder?

Wie gesagt, es kann Probleme mit Umlauten am Wortanfang oder -ende geben, da
dann für den Trenn-Algorithmus 2 Zeichen am Rand stehen und Ä-ther oder Windb-
ö getrennt werden könnte.


Kochrezept für die Nachbearbeitung (pseudo code):

  for pattern in patterns:
       pattern_nfd = unicodedata.normalize('NFD', pattern)
       print(pattern)
       if pattern_nfd != pattern:
          print(pattern_nfd)
	 


> > Im Prinzip gehört das Thema auch auf die tex-hyphen-Liste, da es
> > viele Sprachen betrifft. Ob sich dort jemand dafür interessiert,
> > weiß ich allerdings nicht.

> Vielleicht sollten wir das dort diskutieren, wenn's bei unserer
> Wortliste funktioniert :-)

Für Xe/LuaTeX mit Unicode fonts sehe ich kein Problem. Evt. müssen die
kombinierenden Accente noch als Wort-Zeichen definiert werden, aber
wahrscheinlich sind sie es schon.

Für 8-bit TeX werden standardmäßig die alten Muster genommen, da sind wir
auch fein raus. Für 8-bit TeX mit neuen Mustern (dehyph-exptl) muss die
Umkodierung UTF-8 → T1 angepasst werden. (Passiert die extern oder mit dem
Framework zum on-the-fly-Konvertieren des hyph-utf8 Pakets?)


Günter



Mehr Informationen über die Mailingliste Trennmuster