[Trennmuster] Patgen-Nachfolger
Werner LEMBERG
wl at gnu.org
Sa Nov 24 08:24:25 CET 2018
> auf der TeX-hyphen-Liste gab es kürzlich einige Nachrichten zu
> Nachfolgeprogrammen für Patgen mit Unicode-Unterstützung. Leider
> war für mich nicht nachvollziehbar, was das Ausgangsproblem dabei
> war. Warum bist du so auf einen Patgen-Nachfolger erpicht, Werner?
> Wir können doch offenbar mit Patgen deutsche Trennmuster erstellen,
> obwohl wir nicht nur ASCII-Zeichen benutzen.
Das originale Patgen-Programm kann nur maximal 256 Zeichen verwenden
(abzüglich der Kontrollzeichen wie die Ziffern 0-9 etc.) Wir müssen
daher unsere Eingabekodierung auf diese (beliebigen) 256 Zeichen
abbilden, siehe Datei »daten/german.tr«. Eine Unicode-Version wie
»opatgen« hat dieses Problem nicht. Zusätzlich unterstützt dieses
Programm,das aufgrund seines veralteten C++-Codes derzeit nicht
kompilierbar ist,[*] als eine Erweiterung die Erzeugung gewichteter
Trennmuster, was ja für uns durchaus von Interesse ist.
> Der Hintergrund meiner Frage liegt auch in der Vorbereitung neuer
> lateinischer Trennmuster, die künftig auch diakritische Zeichen für
> lange und kurze Vokale unterstützen sollen, wie sie in Wörterbüchern
> und Grammatiken regelmäßig zum Einsatz kommen. Nach meinen ersten
> Versuchen hat Patgen mit diesen keine Probleme, obwohl es sich bei
> Zeichen wie ā und ă in UTF-8 um Zwei-Byte-Sequenzen handelt.
Es gibt aber Sprachen wie Amharisch, wo 256 Zeichen nicht
ausreichen...
Nur damit ich Dich richtig verstehe: Du verwendest schon eine
Translationsdatei ähnlich zu »german.tr«, oder?
Werner
[*] Erfreulicherweise gibt's aber jetzt Alternativen, wie in der
anderen E-Mail-Liste erwähnt. Ob da auch gewichtete Trennmuster
unterstützt werden, habe ich noch nicht näher untersucht.
Mehr Informationen über die Mailingliste Trennmuster