<div dir="ltr">Hallo Liste,<div><br></div><div>kennt Ihr eine gute Beschreibung von patgen? Wisst Ihr, ob patgen einen Parameter akzeptiert, um Trennwörterbücher in UTF-8-Kodierung zu erstellen?</div><div><br></div><div>Google hat für eine Handvoll von Sprachen, die zur Zeit aus lizenzrechtlichen Gründen noch keine Trennmuster in Android haben, die jeweils häufigsten paar tausend Wörter von Hand trennen lassen, und diese „im Reinraum“ erstellten Trennwörterbücher ans Unicode-Konsortium gespendet. Ich habe nun als erstes mal die schwedischen Daten konvertiert und versuche jetzt, daraus TeX-Trennmuster zu erzeugen. Allerdings kämpfe ich zur Zeit ziemlich mit patgen. Hier die schwedischen Daten:</div><div><br></div><div><a href="https://github.com/unicode-org/unilex/tree/master/data/hyphenation">https://github.com/unicode-org/unilex/tree/master/data/hyphenation</a><br></div><div><br></div><div>Die Trennwörterbücher für fünf weitere Sprachen (Russisch, Indonesisch, Niederländisch, Polnisch, Türkisch) lade ich in den nächsten Tagen ins Unilex-Repositorium hoch. Mir ist nicht klar, ob ein paar tausend Wörter ausreichen, um qualitativ gute Trennmuster zu erzeugen. Falls ja, wäre das allenfalls ein Weg, Trennmuster für die ~1000 Sprachen in Unilex zu bauen; falls nein, könnte man die induzierten Trennmuster zumindest zum Vor-Trennen der nächsten paar tausend Wörter verwenden, die man dann nur noch manuell durchsehen (statt von vorne trennen) müsste.<br></div><div><br></div><div>Viele Grüsse und herzlichen Dank für Eure Hilfe,</div><div><br></div><div>— Sascha</div><div><br></div></div>