[Trennmuster] Gesangstextunterschiede

Werner LEMBERG wl at gnu.org
Sa Jul 1 07:34:03 CEST 2023


Lieber Günter!


Bin spät dran mit dem Beantworten von E-Mails, tut mir leid.

> ein Vergleich der mit "sprachauszug.py" und "extract-tex.pl"
> erzeugten Gesangstrennmuster zeigt einige Unterschiede:

Also ich finde die Unterschiede nicht so groß.  Basierend auf dem
Repositoriumsstand von heute (1. Juli) habe ich die Ergebnisse von

  python skripte/wortliste/sprachauszug.py \
           -l "de-1996,de-1996-x-versal" \
           -s "morphemisch,keine_schwankungsfaelle,einfach" \
           < wortliste \
           > wortliste.sprachauszug

und

  perl skripte/wortliste/extract-tex.pl -G -S \
         < wortliste \
         > worliste.extract-tex

verglichen (syllabische Trennung wird von »extract-tex.pl« nicht
unterstützt).  Ein »diff -u« enthält bloß 537 Zeilen statt Deiner
erwähnten 270000.

> * Andere Sortierung von Umlauten und ß (läßt sich mit
>   skripte/sort.py leicht normalisieren).

Ich sehe das nicht in der diff-Ausgabe.  Andererseits gibt Dein Skript
– im Gegensatz zu früher, scheint mir – jetzt auch Einträge wie

  Altanbau;Al[t=an<./-tan=]bau
  Bohrersätze;Boh[-rer=/r=er<.]sät-ze

als

  Altanbau
  Bohrersät-ze

aus, was ich ehrlich gesagt als überhaupt nicht hilfreich empfinde.
Wie kann die Ausgabe von Einträgen mit »[...]« unterdrücken?  Gibt's
dafür einen Filter?  Wenn das möglich sein sollte, gibt's überhaupt
keine Unterschiede mehr (bis auf einen kleiner Fehler, siehe unten).

> * Umlaut-Ersatzschreibung
>   
>   Wie sinnvoll sind die in Gesangstexten?

Nicht wirklich sinnvoll.  Mein Skript benötigt aber explizit die
Option »-U«, damit die Ersatzschreibung ausgegeben wird.

> * Behandlung der "Schwankungsfälle"
> 
>   In der Dokumentation steht, bei (führendem) "." wird im Gesang
>   nicht getrennt. So auch "sprachauszug.py".

Ich denke, da hat sich Deine E-Mail mit meiner Korrektur des Skripts
im April gekreuzt; für mich schaut das jetzt gut aus.

Soweit ich erkennen kann, gibt's einen kleinen Bug in Deinem Skript:
Bei obigem Aufruf von »sprachauszug.py« sehe ich die inkorrekten
Ausgabezeilen

  I-od
  I-od-a-tom
  I-od-a-to-me


    Werner




Mehr Informationen über die Mailingliste Trennmuster