[Trennmuster] Gojko M.

Werner LEMBERG wl at gnu.org
Do Jun 12 06:22:10 CEST 2014


> Entweder wir verzichten auf die korrekte Schreibung dieses Herren (Mitic
> statt Mitić).

Lassen wir das doch fürs erste offen und schmeißen all diese
nicht-deutschen Wörter in eine separate Datei – wenn überhaupt!  Ich
meine, irgendwo müssen wir die Grenze ziehen, sonst fangen wir noch
an, korrekte Trennstellen für Sanskrit-Wörter in Pāli oder
lateinisiertes Arabisch zu entwickeln!

> Oder wir steigen auf eine Kodierung um, die den Buchstaben abdeckt.
> Die Cork-Kodierung hätte ć an Position 0xA2.

Ja, das wäre sicher eine Möglichkeit.

> Nachteil der Cork-Kodierung ist die schlecht Unterstützung in
> Editoren.  Das erschwert die Sichtprüfung von Patgens Ein- und
> Ausgabe.

Nun ja, »make-full-pattern.sh« könnte durchaus die »pattmp.*«-Dateien
automatisch wieder in UTF-8 zurückverwandeln.  Hmm, die Idee gefällt
mir, ich denke, ich baue das ein :-)

> Oder wir basteln uns selbst eine Kodierung, sinnvollerweise in
> Anlehnung an ISO-8859-15.  Nachteil dieser Lösung wäre, dass wir
> nicht mehr auf iconv zurückgreifen könnten, sondern was
> selbstgestricktes benötigten.

Da »Cork« (auch »T1« genannt) eine Fontkodierung ist, wird es von
iconv sowieso nicht abgedeckt...  Außerdem brauchen wir eine
Modifikation davon, um »ſ« unterstützen zu können.

Beispielsweise könnte man »ſ« auf das Zeichen »£« legen:

  sed 's/ſ/£/g' \
  | iconv -f utf-8 -t ISO-8859-15

Das schnellere »tr«-Programm unterstützt UTF-8 leider (noch) nicht,
daher »sed«.


    Werner




Mehr Informationen über die Mailingliste Trennmuster