<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    <p><br>
    </p>
    <br>
    <div class="moz-cite-prefix">On 04/24/2018 06:22 PM, Sascha Brawer
      wrote:<br>
    </div>
    <blockquote type="cite"
cite="mid:CABKQ4ET_mMdr3qhuJj5kJ4uzbhu81XVsG43p9GVx8jcgR3ez+g@mail.gmail.com">
      <div dir="ltr">Hallo Liste,
        <div><br>
        </div>
        <div>kennt Ihr eine gute Beschreibung von patgen? Wisst Ihr, ob
          patgen einen Parameter akzeptiert, um Trennwörterbücher in
          UTF-8-Kodierung zu erstellen?</div>
      </div>
    </blockquote>
    I do know that there was in idea to rewrite patgen in lua to support
    UTF-8. Perhaps you can find more on this.<br>
    <blockquote type="cite"
cite="mid:CABKQ4ET_mMdr3qhuJj5kJ4uzbhu81XVsG43p9GVx8jcgR3ez+g@mail.gmail.com">
      <div dir="ltr">
        <div><br>
        </div>
        <div>Google hat für eine Handvoll von Sprachen, die zur Zeit aus
          lizenzrechtlichen Gründen noch keine Trennmuster in Android
          haben, die jeweils häufigsten paar tausend Wörter von Hand
          trennen lassen, und diese „im Reinraum“ erstellten
          Trennwörterbücher ans Unicode-Konsortium gespendet. Ich habe
          nun als erstes mal die schwedischen Daten konvertiert und
          versuche jetzt, daraus TeX-Trennmuster zu erzeugen. Allerdings
          kämpfe ich zur Zeit ziemlich mit patgen. Hier die schwedischen
          Daten:</div>
        <div><br>
        </div>
        <div><a
href="https://github.com/unicode-org/unilex/tree/master/data/hyphenation"
            moz-do-not-send="true">https://github.com/unicode-org/unilex/tree/master/data/hyphenation</a><br>
        </div>
        <div><br>
        </div>
        <div>Die Trennwörterbücher für fünf weitere Sprachen (Russisch,
          Indonesisch, Niederländisch, Polnisch, Türkisch) lade ich in
          den nächsten Tagen ins Unilex-Repositorium hoch. Mir ist nicht
          klar, ob ein paar tausend Wörter ausreichen, um qualitativ
          gute Trennmuster zu erzeugen. Falls ja, wäre das allenfalls
          ein Weg, Trennmuster für die ~1000 Sprachen in Unilex zu
          bauen; falls nein, könnte man die induzierten Trennmuster
          zumindest zum Vor-Trennen der nächsten paar tausend Wörter
          verwenden, die man dann nur noch manuell durchsehen (statt von
          vorne trennen) müsste.<br>
        </div>
        <div><br>
        </div>
        <div>Viele Grüsse und herzlichen Dank für Eure Hilfe,</div>
        <div><br>
        </div>
        <div>— Sascha</div>
        <div><br>
        </div>
      </div>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <br>
      <pre wrap="">_______________________________________________
Trennmuster mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Trennmuster@dante.de">Trennmuster@dante.de</a>
<a class="moz-txt-link-freetext" href="https://lists.dante.de/mailman/listinfo/trennmuster">https://lists.dante.de/mailman/listinfo/trennmuster</a>
</pre>
    </blockquote>
    <br>
  </body>
</html>