[Trennmuster] Gojko M.
Guenter Milde
milde at users.sf.net
Do Jun 12 09:40:17 CEST 2014
On 12.06.14, Werner LEMBERG wrote:
> > Entweder wir verzichten auf die korrekte Schreibung dieses Herren (Mitic
> > statt Mitić).
Dann lieber gar nicht aufnehmen.¹
¹Ich dachte mal, daß wir Namen sowieso nur in Ausnahmefällen oder einer
separaten Datei nehmen wollten, gerade die lokalen Berühmtheiten sind
doch eher für lokale hyphenlists.
In Anbetracht der Probleme mit dem unflexiblen Vor-Laden der Muster in
8-bit TeX könnte ein Set "hyphenlists" für spezielle Sachgebiete und
Regionen mit praktischer Schnittstelle doch eine sinnvolle Ergänzung der
Muster für das Paket de-hyph-exptl sein. Dabei kann/sollte im Sinne der
Effizienz bei der Nutzung dieser Listen auf Wörter die
"nebenbei" korrekt getrennt werden verzichtet werden. (Wir könnten
ausführliche Listen führen und ein automatisierter Test würde dann vor dem
Paketieren mit den *-latest Mustern korrekt getrennte Wörter ausfiltern.)
> > Oder wir steigen auf eine Kodierung um, die den Buchstaben abdeckt.
> > Die Cork-Kodierung hätte ć an Position 0xA2.
> Ja, das wäre sicher eine Möglichkeit.
> > Nachteil der Cork-Kodierung ist die schlecht Unterstützung in
> > Editoren. Das erschwert die Sichtprüfung von Patgens Ein- und
> > Ausgabe.
> Nun ja, »make-full-pattern.sh« könnte durchaus die »pattmp.*«-Dateien
> automatisch wieder in UTF-8 zurückverwandeln. Hmm, die Idee gefällt
> mir, ich denke, ich baue das ein :-)
Das würde den Weg freimachen für die Nutzung von T1 in der patgen-Eingabe.
Vorteil: mit 8-bit TeX sind dann die von patgen bei der Erzeugung und von
TeX bei der Anwendung der Muster unterstützten Buchstaben identisch.
Nachteil: Da T1 viele Zeichen enthält, die in deutschen Wörtern definitiv
nicht vorkommen, ist T1 eine gewisse Verschwendung der 256
freien Buchstabenplätze.
> > Oder wir basteln uns selbst eine Kodierung, sinnvollerweise in
> > Anlehnung an ISO-8859-15. Nachteil dieser Lösung wäre, dass wir
> > nicht mehr auf iconv zurückgreifen könnten, sondern was
> > selbstgestricktes benötigten.
> Da »Cork« (auch »T1« genannt) eine Fontkodierung ist, wird es von
> iconv sowieso nicht abgedeckt... Außerdem brauchen wir eine
> Modifikation davon, um »ſ« unterstützen zu können.
Ich denke weiterhin, daſs wir das lange s nicht in den Trennmustern brauchen.
viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster