[Trennmuster] Beschreibung von patgen?
Pander
pander at users.sourceforge.net
Di Apr 24 18:31:34 CEST 2018
On 04/24/2018 06:22 PM, Sascha Brawer wrote:
> Hallo Liste,
>
> kennt Ihr eine gute Beschreibung von patgen? Wisst Ihr, ob patgen
> einen Parameter akzeptiert, um Trennwörterbücher in UTF-8-Kodierung zu
> erstellen?
I do know that there was in idea to rewrite patgen in lua to support
UTF-8. Perhaps you can find more on this.
>
> Google hat für eine Handvoll von Sprachen, die zur Zeit aus
> lizenzrechtlichen Gründen noch keine Trennmuster in Android haben, die
> jeweils häufigsten paar tausend Wörter von Hand trennen lassen, und
> diese „im Reinraum“ erstellten Trennwörterbücher ans
> Unicode-Konsortium gespendet. Ich habe nun als erstes mal die
> schwedischen Daten konvertiert und versuche jetzt, daraus
> TeX-Trennmuster zu erzeugen. Allerdings kämpfe ich zur Zeit ziemlich
> mit patgen. Hier die schwedischen Daten:
>
> https://github.com/unicode-org/unilex/tree/master/data/hyphenation
>
> Die Trennwörterbücher für fünf weitere Sprachen (Russisch,
> Indonesisch, Niederländisch, Polnisch, Türkisch) lade ich in den
> nächsten Tagen ins Unilex-Repositorium hoch. Mir ist nicht klar, ob
> ein paar tausend Wörter ausreichen, um qualitativ gute Trennmuster zu
> erzeugen. Falls ja, wäre das allenfalls ein Weg, Trennmuster für die
> ~1000 Sprachen in Unilex zu bauen; falls nein, könnte man die
> induzierten Trennmuster zumindest zum Vor-Trennen der nächsten paar
> tausend Wörter verwenden, die man dann nur noch manuell durchsehen
> (statt von vorne trennen) müsste.
>
> Viele Grüsse und herzlichen Dank für Eure Hilfe,
>
> — Sascha
>
>
>
> _______________________________________________
> Trennmuster mailing list
> Trennmuster at dante.de
> https://lists.dante.de/mailman/listinfo/trennmuster
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20180424/90db25b6/attachment.htm>
Mehr Informationen über die Mailingliste Trennmuster