[Trennmuster] Kodierung fuer Patgen
Stephan Hennig
mailing_list at arcor.de
Fr Jun 6 18:34:14 CEST 2014
Hi,
bekanntermaßen kann Patgen nur mit 8-Bit-kodierten Alphabeten umgehen.
Soweit ich es erkennen kann, nutzen wir derzeit die Kodierung ISO-8859-1
(latin1) für die Mustererzeugung. In dieser Kodierung können einige
durchaus gebräuchliche Zeichen nicht dargestellt werden, etwa Œ und Š
aus Œuvre und Škoda (siehe auch dehyph-exptl/CHANGES, Abschnitt
"Bekannte Probleme"). Ich würde diese Wörter gern als Teil der
Wortliste sehen. Die fraglichen Zeichen sind in den Kodierungen
ISO-8859-15 und Windows-1252 enthalten, die ansonsten weitgehend mit
latin1 übereinstimmen,
<URL:http://de.wikipedia.org/wiki/Latin1#ISO_8859-1_vs._ISO_8859-15_vs._Windows-1252_vs._Unicode>.
Kann bitte jemand den Prozess der Mustererstellung so ändern, dass die
Eingabe für Patgen eine der genannten Kodierungen nutzt?
Viele Grüße,
Stephan Hennig
Mehr Informationen über die Mailingliste Trennmuster