[Trennmuster] Patgen-Nachfolger

Keno Wehr keno.wehr at abgol.de
Sa Nov 24 21:40:16 CET 2018


Am 24.11.18 um 08:24 schrieb Werner LEMBERG:

>
>> Der Hintergrund meiner Frage liegt auch in der Vorbereitung neuer
>> lateinischer Trennmuster, die künftig auch diakritische Zeichen für
>> lange und kurze Vokale unterstützen sollen, wie sie in Wörterbüchern
>> und Grammatiken regelmäßig zum Einsatz kommen.  Nach meinen ersten
>> Versuchen hat Patgen mit diesen keine Probleme, obwohl es sich bei
>> Zeichen wie ā und ă in UTF-8 um Zwei-Byte-Sequenzen handelt.
> Es gibt aber Sprachen wie Amharisch, wo 256 Zeichen nicht
> ausreichen...
>
> Nur damit ich Dich richtig verstehe: Du verwendest schon eine
> Translationsdatei ähnlich zu »german.tr«, oder?
>

Ja, ohne ein solche Datei könnte man patgen ja gar nicht aufrufen.

Ich habe diese jetzt hier veröffentlicht:
https://github.com/gregorio-project/hyphen-la/blob/master/patterns/generation/patgen_translate_classical
(Die letzten drei Zeilen enthalten Kombinationsakzente.)

Die Datei ist UTF-8-codiert, nicht wie »german.tr« ISO-8859.
Mich hat selbst gewundert, dass das funktioniert, denn alle 
Nicht-ASCII-Zeichen
werden natürlich durch Zwei-Byte-Sequenzen repräsentiert.
Die erzeugten Muster sind aber einwandfrei.
Falls du's probieren willst, steht im Git-Repositorium im gleichen 
Verzeichnis wie
die Translate-Datei das Skript »generate-patgen-input.sh« zur Verfügung, das
aus meiner Wortliste (bisher ca. 600 Einträge) mit Hilfe von drei 
Lua-Skripten eine
Liste getrennter Wörter mit ca. 35000 Einträgen erzeugt.

Gruß
Keno



Mehr Informationen über die Mailingliste Trennmuster