<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body text="#000000" bgcolor="#FFFFFF">
<p><br>
</p>
<br>
<div class="moz-cite-prefix">On 04/24/2018 06:22 PM, Sascha Brawer
wrote:<br>
</div>
<blockquote type="cite"
cite="mid:CABKQ4ET_mMdr3qhuJj5kJ4uzbhu81XVsG43p9GVx8jcgR3ez+g@mail.gmail.com">
<div dir="ltr">Hallo Liste,
<div><br>
</div>
<div>kennt Ihr eine gute Beschreibung von patgen? Wisst Ihr, ob
patgen einen Parameter akzeptiert, um Trennwörterbücher in
UTF-8-Kodierung zu erstellen?</div>
</div>
</blockquote>
I do know that there was in idea to rewrite patgen in lua to support
UTF-8. Perhaps you can find more on this.<br>
<blockquote type="cite"
cite="mid:CABKQ4ET_mMdr3qhuJj5kJ4uzbhu81XVsG43p9GVx8jcgR3ez+g@mail.gmail.com">
<div dir="ltr">
<div><br>
</div>
<div>Google hat für eine Handvoll von Sprachen, die zur Zeit aus
lizenzrechtlichen Gründen noch keine Trennmuster in Android
haben, die jeweils häufigsten paar tausend Wörter von Hand
trennen lassen, und diese „im Reinraum“ erstellten
Trennwörterbücher ans Unicode-Konsortium gespendet. Ich habe
nun als erstes mal die schwedischen Daten konvertiert und
versuche jetzt, daraus TeX-Trennmuster zu erzeugen. Allerdings
kämpfe ich zur Zeit ziemlich mit patgen. Hier die schwedischen
Daten:</div>
<div><br>
</div>
<div><a
href="https://github.com/unicode-org/unilex/tree/master/data/hyphenation"
moz-do-not-send="true">https://github.com/unicode-org/unilex/tree/master/data/hyphenation</a><br>
</div>
<div><br>
</div>
<div>Die Trennwörterbücher für fünf weitere Sprachen (Russisch,
Indonesisch, Niederländisch, Polnisch, Türkisch) lade ich in
den nächsten Tagen ins Unilex-Repositorium hoch. Mir ist nicht
klar, ob ein paar tausend Wörter ausreichen, um qualitativ
gute Trennmuster zu erzeugen. Falls ja, wäre das allenfalls
ein Weg, Trennmuster für die ~1000 Sprachen in Unilex zu
bauen; falls nein, könnte man die induzierten Trennmuster
zumindest zum Vor-Trennen der nächsten paar tausend Wörter
verwenden, die man dann nur noch manuell durchsehen (statt von
vorne trennen) müsste.<br>
</div>
<div><br>
</div>
<div>Viele Grüsse und herzlichen Dank für Eure Hilfe,</div>
<div><br>
</div>
<div>— Sascha</div>
<div><br>
</div>
</div>
<br>
<fieldset class="mimeAttachmentHeader"></fieldset>
<br>
<pre wrap="">_______________________________________________
Trennmuster mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Trennmuster@dante.de">Trennmuster@dante.de</a>
<a class="moz-txt-link-freetext" href="https://lists.dante.de/mailman/listinfo/trennmuster">https://lists.dante.de/mailman/listinfo/trennmuster</a>
</pre>
</blockquote>
<br>
</body>
</html>