[Trennmuster] Kodierung fuer Patgen

Stephan Hennig mailing_list at arcor.de
Fr Jun 6 18:34:14 CEST 2014


Hi,

bekanntermaßen kann Patgen nur mit 8-Bit-kodierten Alphabeten umgehen.
Soweit ich es erkennen kann, nutzen wir derzeit die Kodierung ISO-8859-1
(latin1) für die Mustererzeugung.  In dieser Kodierung können einige
durchaus gebräuchliche Zeichen nicht dargestellt werden, etwa Œ und Š
aus Œuvre und Škoda (siehe auch dehyph-exptl/CHANGES, Abschnitt
"Bekannte Probleme").  Ich würde diese Wörter gern als Teil der
Wortliste sehen.  Die fraglichen Zeichen sind in den Kodierungen
ISO-8859-15 und Windows-1252 enthalten, die ansonsten weitgehend mit
latin1 übereinstimmen,
<URL:http://de.wikipedia.org/wiki/Latin1#ISO_8859-1_vs._ISO_8859-15_vs._Windows-1252_vs._Unicode>.

Kann bitte jemand den Prozess der Mustererstellung so ändern, dass die
Eingabe für Patgen eine der genannten Kodierungen nutzt?

Viele Grüße,
Stephan Hennig



Mehr Informationen über die Mailingliste Trennmuster