[Trennmuster] Patgen-Nachfolger

Sa Nov 24 08:24:25 CET 2018

> auf der TeX-hyphen-Liste gab es kürzlich einige Nachrichten zu
> Nachfolgeprogrammen für Patgen mit Unicode-Unterstützung.  Leider
> war für mich nicht nachvollziehbar, was das Ausgangsproblem dabei
> war.  Warum bist du so auf einen Patgen-Nachfolger erpicht, Werner?
> Wir können doch offenbar mit Patgen deutsche Trennmuster erstellen,
> obwohl wir nicht nur ASCII-Zeichen benutzen.

Das originale Patgen-Programm kann nur maximal 256 Zeichen verwenden
(abzüglich der Kontrollzeichen wie die Ziffern 0-9 etc.)  Wir müssen
daher unsere Eingabekodierung auf diese (beliebigen) 256 Zeichen
abbilden, siehe Datei »daten/german.tr«.  Eine Unicode-Version wie
»opatgen« hat dieses Problem nicht.  Zusätzlich unterstützt dieses
Programm,das aufgrund seines veralteten C++-Codes derzeit nicht
kompilierbar ist,[*] als eine Erweiterung die Erzeugung gewichteter
Trennmuster, was ja für uns durchaus von Interesse ist.

> Der Hintergrund meiner Frage liegt auch in der Vorbereitung neuer
> lateinischer Trennmuster, die künftig auch diakritische Zeichen für
> lange und kurze Vokale unterstützen sollen, wie sie in Wörterbüchern
> und Grammatiken regelmäßig zum Einsatz kommen.  Nach meinen ersten
> Versuchen hat Patgen mit diesen keine Probleme, obwohl es sich bei
> Zeichen wie ā und ă in UTF-8 um Zwei-Byte-Sequenzen handelt.

Es gibt aber Sprachen wie Amharisch, wo 256 Zeichen nicht
ausreichen...

Nur damit ich Dich richtig verstehe: Du verwendest schon eine
Translationsdatei ähnlich zu »german.tr«, oder?

    Werner

[*] Erfreulicherweise gibt's aber jetzt Alternativen, wie in der
    anderen E-Mail-Liste erwähnt.  Ob da auch gewichtete Trennmuster
    unterstützt werden, habe ich noch nicht näher untersucht.