[Trennmuster] Patgen-Nachfolger
Keno Wehr
keno.wehr at abgol.de
So Nov 25 22:55:39 CET 2018
Am 25.11.18 um 21:19 schrieb Werner LEMBERG:
>> Für mich sieht es ganz danach aus, als habe bereits jemand patgen
>> UTF-8-fähig gemacht.
> Nein, patgen ist nicht UTF-8-fähig, aber Abschnitt 21 ist hier
> relevant. Wenn Du außerdem in TeXLive
>
> texdoc patgen2
>
> aufrufst, kannst Du direkt sehen, daß auch Zeichenketten von patgen
> akzeptiert werden – aber insgesamt sind nicht mehr als maximal 247
> verschiedene Einträge erlaubt. Rätsel gelöst – ich hab' das mit den
> Zeichenketten glatt vergessen :-)
>
> Mit anderen Worten, es funktioniert bei klassischem Latein, weil
> keiner der Unicode-Einträge in der Translationsdatei ein Substring
> eines anderen Eintrags ist. Wären auch UTF-8-Zeichen mit drei Bytes
> notwendig, könnte es zu Kollisionen kommen.
Ah, so ist das.
Danke für die Recherche.
Jetzt ist mir auch wohler bei der Verwendung von UTF-8.
> Hmm. Vielleicht werde ich auch unsere Wortliste auf Pseudo-UTF-8 in
> patgen umstellen, wenn's die Zeit erlaubt.
>
Das wäre sinnvoll, weil es die Trennmustererzeugung besser durchschaubar
macht. Man wundert sich schon etwas, dass die Wortliste in UTF-8 codiert
ist,
die Translate-Datei aber in ISO-8859-15.
Gruß
Keno
Mehr Informationen über die Mailingliste Trennmuster