[Trennmuster] Kombinierende Zeichen in der TeX Eingabe

Guenter Milde milde at users.sf.net
Mo Okt 30 19:35:57 CET 2023


Liebe Trennfreunde,

mit Xe/LuaTeX und Unicode Fonts können in der TeX Eingabe auch
kombinierende Zeichen verwendet werden (Unicode Normalform D). Im PDF
sind dann im Allg. wieder die "normalen" vorgefertigten äöü... (Unicode
Normalform C) https://www.unicode.org/reports/tr15/#Norm_Forms

Der Wandel vom NFD nach NFC erfolgt allerdings erst nach dem
Zeilenumbruch (analog zu den Ligaturen in 8-bit TeX fonts).

Daher werden ca. 17 000 Wörter (3.4%) der Wortliste werden falsch oder
nicht vollständig getrennt wenn sie mit kombinierenden Zeichen anstelle
der vorgefertigten äöü... geschrieben werden.

Im Anhang ein Bsp mit *nicht* in der Wortliste enthaltenen Wörtern.


* Sollte der Zeilenumbruch auch bei Quellen in NFD funktionieren oder wird
  irgendwo beschrieben, dass die LaTeX Eingabe in NFC zu erfolgen hat?
  
  Insbesondere für Russisch erscheint mir die Unterstützung von NFD
  angezeigt, da die in Lehrwerken, Anfängertexten und Wörterbüchern üblichen
  Vokale mit Betonungszeichen keine Unicode-Plätze erhalten haben.
  
  Im Griechischen verlässt sich z.Zt. die Implementierung der
  Accent-Makros auf die Unicode Normalisierung im "Renderer" (das spart >
  200 Definitionen für Akzent-Kombinationen). Auch hier ist der
  Zeilenumbruch betroffen (οποία != οπο\'ια == οποι<0301>α).
  
  
Was denkt Ihr?

Günter  
  
  
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : de-composite-test.tex
Dateityp    : text/x-tex
Dateigröße  : 1536 bytes
Beschreibung: nicht verfügbar
URL         : <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20231030/53aa8f5f/attachment.tex>


Mehr Informationen über die Mailingliste Trennmuster