[Trennmuster] Beschreibung von patgen?

Di Apr 24 18:22:13 CEST 2018

Hallo Liste,

kennt Ihr eine gute Beschreibung von patgen? Wisst Ihr, ob patgen einen
Parameter akzeptiert, um Trennwörterbücher in UTF-8-Kodierung zu erstellen?

Google hat für eine Handvoll von Sprachen, die zur Zeit aus
lizenzrechtlichen Gründen noch keine Trennmuster in Android haben, die
jeweils häufigsten paar tausend Wörter von Hand trennen lassen, und diese
„im Reinraum“ erstellten Trennwörterbücher ans Unicode-Konsortium
gespendet. Ich habe nun als erstes mal die schwedischen Daten konvertiert
und versuche jetzt, daraus TeX-Trennmuster zu erzeugen. Allerdings kämpfe
ich zur Zeit ziemlich mit patgen. Hier die schwedischen Daten:

https://github.com/unicode-org/unilex/tree/master/data/hyphenation

Die Trennwörterbücher für fünf weitere Sprachen (Russisch, Indonesisch,
Niederländisch, Polnisch, Türkisch) lade ich in den nächsten Tagen ins
Unilex-Repositorium hoch. Mir ist nicht klar, ob ein paar tausend Wörter
ausreichen, um qualitativ gute Trennmuster zu erzeugen. Falls ja, wäre das
allenfalls ein Weg, Trennmuster für die ~1000 Sprachen in Unilex zu bauen;
falls nein, könnte man die induzierten Trennmuster zumindest zum
Vor-Trennen der nächsten paar tausend Wörter verwenden, die man dann nur
noch manuell durchsehen (statt von vorne trennen) müsste.

Viele Grüsse und herzlichen Dank für Eure Hilfe,

— Sascha
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20180424/e3a28c45/attachment.htm>