[Trennmuster] Patgen-Nachfolger
Keno Wehr
keno.wehr at abgol.de
Sa Nov 24 21:40:16 CET 2018
Am 24.11.18 um 08:24 schrieb Werner LEMBERG:
>
>> Der Hintergrund meiner Frage liegt auch in der Vorbereitung neuer
>> lateinischer Trennmuster, die künftig auch diakritische Zeichen für
>> lange und kurze Vokale unterstützen sollen, wie sie in Wörterbüchern
>> und Grammatiken regelmäßig zum Einsatz kommen. Nach meinen ersten
>> Versuchen hat Patgen mit diesen keine Probleme, obwohl es sich bei
>> Zeichen wie ā und ă in UTF-8 um Zwei-Byte-Sequenzen handelt.
> Es gibt aber Sprachen wie Amharisch, wo 256 Zeichen nicht
> ausreichen...
>
> Nur damit ich Dich richtig verstehe: Du verwendest schon eine
> Translationsdatei ähnlich zu »german.tr«, oder?
>
Ja, ohne ein solche Datei könnte man patgen ja gar nicht aufrufen.
Ich habe diese jetzt hier veröffentlicht:
https://github.com/gregorio-project/hyphen-la/blob/master/patterns/generation/patgen_translate_classical
(Die letzten drei Zeilen enthalten Kombinationsakzente.)
Die Datei ist UTF-8-codiert, nicht wie »german.tr« ISO-8859.
Mich hat selbst gewundert, dass das funktioniert, denn alle
Nicht-ASCII-Zeichen
werden natürlich durch Zwei-Byte-Sequenzen repräsentiert.
Die erzeugten Muster sind aber einwandfrei.
Falls du's probieren willst, steht im Git-Repositorium im gleichen
Verzeichnis wie
die Translate-Datei das Skript »generate-patgen-input.sh« zur Verfügung, das
aus meiner Wortliste (bisher ca. 600 Einträge) mit Hilfe von drei
Lua-Skripten eine
Liste getrennter Wörter mit ca. 35000 Einträgen erzeugt.
Gruß
Keno
Mehr Informationen über die Mailingliste Trennmuster