[Trennmuster] Gesangstextunterschiede
Werner LEMBERG
wl at gnu.org
Sa Jul 1 07:34:03 CEST 2023
Lieber Günter!
Bin spät dran mit dem Beantworten von E-Mails, tut mir leid.
> ein Vergleich der mit "sprachauszug.py" und "extract-tex.pl"
> erzeugten Gesangstrennmuster zeigt einige Unterschiede:
Also ich finde die Unterschiede nicht so groß. Basierend auf dem
Repositoriumsstand von heute (1. Juli) habe ich die Ergebnisse von
python skripte/wortliste/sprachauszug.py \
-l "de-1996,de-1996-x-versal" \
-s "morphemisch,keine_schwankungsfaelle,einfach" \
< wortliste \
> wortliste.sprachauszug
und
perl skripte/wortliste/extract-tex.pl -G -S \
< wortliste \
> worliste.extract-tex
verglichen (syllabische Trennung wird von »extract-tex.pl« nicht
unterstützt). Ein »diff -u« enthält bloß 537 Zeilen statt Deiner
erwähnten 270000.
> * Andere Sortierung von Umlauten und ß (läßt sich mit
> skripte/sort.py leicht normalisieren).
Ich sehe das nicht in der diff-Ausgabe. Andererseits gibt Dein Skript
– im Gegensatz zu früher, scheint mir – jetzt auch Einträge wie
Altanbau;Al[t=an<./-tan=]bau
Bohrersätze;Boh[-rer=/r=er<.]sät-ze
als
Altanbau
Bohrersät-ze
aus, was ich ehrlich gesagt als überhaupt nicht hilfreich empfinde.
Wie kann die Ausgabe von Einträgen mit »[...]« unterdrücken? Gibt's
dafür einen Filter? Wenn das möglich sein sollte, gibt's überhaupt
keine Unterschiede mehr (bis auf einen kleiner Fehler, siehe unten).
> * Umlaut-Ersatzschreibung
>
> Wie sinnvoll sind die in Gesangstexten?
Nicht wirklich sinnvoll. Mein Skript benötigt aber explizit die
Option »-U«, damit die Ersatzschreibung ausgegeben wird.
> * Behandlung der "Schwankungsfälle"
>
> In der Dokumentation steht, bei (führendem) "." wird im Gesang
> nicht getrennt. So auch "sprachauszug.py".
Ich denke, da hat sich Deine E-Mail mit meiner Korrektur des Skripts
im April gekreuzt; für mich schaut das jetzt gut aus.
Soweit ich erkennen kann, gibt's einen kleinen Bug in Deinem Skript:
Bei obigem Aufruf von »sprachauszug.py« sehe ich die inkorrekten
Ausgabezeilen
I-od
I-od-a-tom
I-od-a-to-me
Werner
Mehr Informationen über die Mailingliste Trennmuster