[Trennmuster] Patgen-Nachfolger
Werner LEMBERG
wl at gnu.org
So Nov 25 21:19:26 CET 2018
>> Kannst Du auf der TeXLive-Liste nachfragen und das »Problem« mit
>> einem Minimalbeispiel demonstrieren?
>
> Ja, aber um das als Problem zu identifizieren, müsste man erst mal
> zeigen, dass das Ergebnis vom dokumentierten Verhalten abweicht. Mir
> ist keine offizielle Dokumentation für die aktuelle Patgen-Version
> bekannt, die sich zur Zeichenkodierung ausdrücklich äußert.
Angehängt findest Du den kommentierten, originalen Pascal-Quelltext,
so wie er in TeXLive verwendet wird – und ich auch schon selbst
kompiliert habe. Abschnitte mit kleinen Änderungen für die
Translation nach C im Rahmen des »texk«-Projekts sind mit einem Stern
markiert; z.B. werden kpathsea-Funktionen verwendet, um Dateien
innerhalb von texmf-Bäumen zu finden.
> Für mich sieht es ganz danach aus, als habe bereits jemand patgen
> UTF-8-fähig gemacht.
Nein, patgen ist nicht UTF-8-fähig, aber Abschnitt 21 ist hier
relevant. Wenn Du außerdem in TeXLive
texdoc patgen2
aufrufst, kannst Du direkt sehen, daß auch Zeichenketten von patgen
akzeptiert werden – aber insgesamt sind nicht mehr als maximal 247
verschiedene Einträge erlaubt. Rätsel gelöst – ich hab' das mit den
Zeichenketten glatt vergessen :-)
Mit anderen Worten, es funktioniert bei klassischem Latein, weil
keiner der Unicode-Einträge in der Translationsdatei ein Substring
eines anderen Eintrags ist. Wären auch UTF-8-Zeichen mit drei Bytes
notwendig, könnte es zu Kollisionen kommen.
Hmm. Vielleicht werde ich auch unsere Wortliste auf Pseudo-UTF-8 in
patgen umstellen, wenn's die Zeit erlaubt.
Werner
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname : patgen.pdf
Dateityp : application/pdf
Dateigröße : 322656 bytes
Beschreibung: nicht verfügbar
URL : <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20181125/377d66a3/attachment.pdf>
Mehr Informationen über die Mailingliste Trennmuster