<html>

  <head>

    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">

  </head>

  <body text="#000000" bgcolor="#FFFFFF">

    <p><br>

    </p>

    <br>

    <div class="moz-cite-prefix">On 04/24/2018 06:22 PM, Sascha Brawer

      wrote:<br>

    </div>

    <blockquote type="cite"

cite="mid:CABKQ4ET_mMdr3qhuJj5kJ4uzbhu81XVsG43p9GVx8jcgR3ez+g@mail.gmail.com">

      <div dir="ltr">Hallo Liste,

        <div><br>

        </div>

        <div>kennt Ihr eine gute Beschreibung von patgen? Wisst Ihr, ob

          patgen einen Parameter akzeptiert, um Trennwörterbücher in

          UTF-8-Kodierung zu erstellen?</div>

      </div>

    </blockquote>

    I do know that there was in idea to rewrite patgen in lua to support

    UTF-8. Perhaps you can find more on this.<br>

    <blockquote type="cite"

cite="mid:CABKQ4ET_mMdr3qhuJj5kJ4uzbhu81XVsG43p9GVx8jcgR3ez+g@mail.gmail.com">

      <div dir="ltr">

        <div><br>

        </div>

        <div>Google hat für eine Handvoll von Sprachen, die zur Zeit aus

          lizenzrechtlichen Gründen noch keine Trennmuster in Android

          haben, die jeweils häufigsten paar tausend Wörter von Hand

          trennen lassen, und diese „im Reinraum“ erstellten

          Trennwörterbücher ans Unicode-Konsortium gespendet. Ich habe

          nun als erstes mal die schwedischen Daten konvertiert und

          versuche jetzt, daraus TeX-Trennmuster zu erzeugen. Allerdings

          kämpfe ich zur Zeit ziemlich mit patgen. Hier die schwedischen

          Daten:</div>

        <div><br>

        </div>

        <div><a

href="https://github.com/unicode-org/unilex/tree/master/data/hyphenation"

            moz-do-not-send="true">https://github.com/unicode-org/unilex/tree/master/data/hyphenation</a><br>

        </div>

        <div><br>

        </div>

        <div>Die Trennwörterbücher für fünf weitere Sprachen (Russisch,

          Indonesisch, Niederländisch, Polnisch, Türkisch) lade ich in

          den nächsten Tagen ins Unilex-Repositorium hoch. Mir ist nicht

          klar, ob ein paar tausend Wörter ausreichen, um qualitativ

          gute Trennmuster zu erzeugen. Falls ja, wäre das allenfalls

          ein Weg, Trennmuster für die ~1000 Sprachen in Unilex zu

          bauen; falls nein, könnte man die induzierten Trennmuster

          zumindest zum Vor-Trennen der nächsten paar tausend Wörter

          verwenden, die man dann nur noch manuell durchsehen (statt von

          vorne trennen) müsste.<br>

        </div>

        <div><br>

        </div>

        <div>Viele Grüsse und herzlichen Dank für Eure Hilfe,</div>

        <div><br>

        </div>

        <div>— Sascha</div>

        <div><br>

        </div>

      </div>

      <br>

      <fieldset class="mimeAttachmentHeader"></fieldset>

      <br>

      <pre wrap="">_______________________________________________

Trennmuster mailing list

<a class="moz-txt-link-abbreviated" href="mailto:Trennmuster@dante.de">Trennmuster@dante.de</a>

<a class="moz-txt-link-freetext" href="https://lists.dante.de/mailman/listinfo/trennmuster">https://lists.dante.de/mailman/listinfo/trennmuster</a>

</pre>

    </blockquote>

    <br>

  </body>

</html>