[Trennmuster] Patgen-Nachfolger
Keno Wehr
keno.wehr at abgol.de
So Nov 25 19:55:20 CET 2018
Am 25.11.18 um 12:37 schrieb Werner LEMBERG:
>
> Ich hab's probiert: Die Eingabe- und Translationsdatei brav von UTF-8
> nach 8bit kodiert (wobei ich die Nicht-ASCII-Zeichen auf beliebige
> Werte im Bereich 0x80-0xFF abgebildet habe), dann dreimal »patgen«
> laufen lassen, danach die erzeugte Trennmusterdatei wieder nach UTF-8
> konvertiert (siehe angehängte Perl-Skripte), und es kommt tatsächlich
> exakt das gleiche heraus!
>
> Es ist mir ein völliges Rätsel, wieso das funktioniert – und ich
> glaube, es wäre wichtig zu verstehen, warum das so ist. Kannst Du auf
> der TeXLive-Liste nachfragen und das »Problem« mit einem
> Minimalbeispiel demonstrieren?
>
>
Ja, aber um das als Problem zu identifizieren, müsste man erst mal
zeigen, dass
das Ergebnis vom dokumentierten Verhalten abweicht. Mir ist keine offizielle
Dokumentation für die aktuelle Patgen-Version bekannt, die sich zur
Zeichenkodierung ausdrücklich äußert.
Mit »patgen -help« und »info patgen« erhält man nur rudimentäre
Informationen
über die Syntax des Programmaufrufs.
Unter »man patgen« steht mehr, aber im Abschnitt über die
Translate-Datei ist
nur von »letter« die Rede, ohne dass das genauer definiert wird. Dass nur
8-Bit-Codierungen möglich sind, weiß ich bisher nur vom Hörensagen.
Für mich sieht es ganz danach aus, als habe bereits jemand patgen
UTF-8-fähig
gemacht. (Vielleicht bringt die Portierung auf ein von Haus aus
UTF-8-basiertes
Betriebssystem das auch von selbst mit sich.) Bei meinen ersten
Versuchen habe
ich in die Translate-Datei auch von Kombinationsakzenten gefolgte Vokale
gesetzt (z. B. sieht Unicode kein eigenes Zeichen für œ mit Überstrich
(Makron)
vor). Da kam dann aber eine Fehlermeldung. Nachdem ich die
Kombinationsakzente
als einzelne Zeichen eingetragen hatte, funktionierte es. Das heißt, es
werden
offenbar nicht wahllose Bytefolgen als Zeichen akzeptiert.
Keno
Mehr Informationen über die Mailingliste Trennmuster