[Trennmuster] Patgen-Nachfolger

Keno Wehr keno.wehr at abgol.de
So Nov 25 22:55:39 CET 2018


Am 25.11.18 um 21:19 schrieb Werner LEMBERG:

>> Für mich sieht es ganz danach aus, als habe bereits jemand patgen
>> UTF-8-fähig gemacht.
> Nein, patgen ist nicht UTF-8-fähig, aber Abschnitt 21 ist hier
> relevant.  Wenn Du außerdem in TeXLive
>
>    texdoc patgen2
>
> aufrufst, kannst Du direkt sehen, daß auch Zeichenketten von patgen
> akzeptiert werden – aber insgesamt sind nicht mehr als maximal 247
> verschiedene Einträge erlaubt.  Rätsel gelöst – ich hab' das mit den
> Zeichenketten glatt vergessen :-)
>
> Mit anderen Worten, es funktioniert bei klassischem Latein, weil
> keiner der Unicode-Einträge in der Translationsdatei ein Substring
> eines anderen Eintrags ist.  Wären auch UTF-8-Zeichen mit drei Bytes
> notwendig, könnte es zu Kollisionen kommen.

Ah, so ist das.
Danke für die Recherche.
Jetzt ist mir auch wohler bei der Verwendung von UTF-8.

> Hmm.  Vielleicht werde ich auch unsere Wortliste auf Pseudo-UTF-8 in
> patgen umstellen, wenn's die Zeit erlaubt.
>

Das wäre sinnvoll, weil es die Trennmustererzeugung besser durchschaubar
macht. Man wundert sich schon etwas, dass die Wortliste in UTF-8 codiert 
ist,
die Translate-Datei aber in ISO-8859-15.

Gruß
Keno



Mehr Informationen über die Mailingliste Trennmuster