[Trennmuster] Beschreibung von patgen?

Werner LEMBERG wl at gnu.org
Mi Apr 25 06:55:19 CEST 2018


Hallo Sascha!


> kennt Ihr eine gute Beschreibung von patgen?

Wenn Du TeXLive installiert hast, einfach

  texdoc patgen

sagen, und Du bekommst die Manpage.  Es gibt auch den alten, aber
immer noch gültigen Artikel von Yannis Haralambous:

  http://mirrors.concertpass.com/tex-archive/info/patgen2/patgen2.pdf

Zusätzlich kannst Du noch den kommentierten Quellcode in der Datei
»patgen.web« mittels »weave« in eine TeX-Datei und weiters in eine
PDF-Datei konvertieren.

> Wisst Ihr, ob patgen einen Parameter akzeptiert, um
> Trennwörterbücher in UTF-8-Kodierung zu erstellen?

Nein, tut es nicht.  Du mußt UTF-8 in eine 8bit-Kodierung verwandeln
(und danach die erzeugten Muster wieder in UTF-8).

> Ich habe nun als erstes mal die schwedischen Daten konvertiert und
> versuche jetzt, daraus TeX-Trennmuster zu erzeugen.  Allerdings
> kämpfe ich zur Zeit ziemlich mit patgen. Hier die schwedischen
> Daten:
> 
> https://github.com/unicode-org/unilex/tree/master/data/hyphenation

Schwedisch sollte leicht sein!  Einfach nach latin1 und fertig.

> Die Trennwörterbücher für fünf weitere Sprachen (Russisch,
> Indonesisch, Niederländisch, Polnisch, Türkisch) lade ich in den
> nächsten Tagen ins Unilex-Repositorium hoch.

»iconv« wird Dein bester Freund werden :-)

> Mir ist nicht klar, ob ein paar tausend Wörter
> ausreichen, um qualitativ gute Trennmuster zu erzeugen.

Kommt auf die Sprache an.  Wenn es so kompliziert wie Deutsch ist,
dann ist die Antwort ein klares Nein.


    Werner




Mehr Informationen über die Mailingliste Trennmuster