[Trennmuster] Gesangstextunterschiede

Werner LEMBERG wl at gnu.org
So Jul 2 11:35:23 CEST 2023


> Ich hatte die make Ziele
> 
>   make exzerpte/de-1996_gesangstext-syllabisch
>   make gesang pattern-refo
> 
> laufen lassen und dann "exzerpte/de-1996_gesangstext-syllabisch"
> mit "muster/dehyphn-x-gesang/words.hyphenated.refo" verglichen.

OK, beim Vergleich syllabisch (Dein Skript) mit morphemisch (mein
Skript) muß natürlich die Differenz groß sein, unabhängig von anderen
Details.

> Ich sehe jetzt im Verzeichnis "muster/dehyphn-x-gesang/" auch noch
> eine Datei "words.hyphenated.refo.sorted". Damit scheint die
> Sortier-Differenz erklärt.

Diese Datei mußt Du wohl selbst manuell erzeugt haben, denn im
Makefile kommt sie nicht vor.  Die Trennmustererzeugung mittels »make«
beginnt mit

  cat .../wortliste/wortliste \
   | perl .../wortliste/skripte/wortliste/extract-tex.pl  -G -S \
   | cat \
   | LC_COLLATE=de_DE.UTF-8 LC_CTYPE=de_DE.UTF-8 sort -d \
   | LC_COLLATE=de_DE.UTF-8 LC_CTYPE=de_DE.UTF-8 uniq -i \
   > muster/dehyphn-x-gesang/words.hyphenated.refo

das heißt, es wird die Standard-Deutschsortierung von »sort« verwendet.

>>   Altanbau
>>   Bohrersät-ze
>
> Nicht im Gegensatz zu früher, sondern schon immer.

OK.

> Die Idee ist, dass hier auf jeden Fall manuell getrennt werden muss.
> Wenn wir diese Wörter im "Trainingsset" weglassen, trennt der
> Algorithmus dann irgendwie "zufällig", was für den Nutzer nicht
> besser ist (den in TeX ist die Unterdrückung einer Trennstelle
> deutlich umständlicher zu erreichen als eine zusätzliche
> Trennmöglichkeit).

Naja, da kann ich Dir nicht wirklich zustimmen, denn ...

> Es gibt natürlich einen Unterschied bei Gesangsmustern, weil die
> evt. gar nicht mit TeX genutzt werden und weil hier stets alle
> Trennungen gebraucht werden.

... ich habe genau das im Sinn: Gesangstrennmuster sind nicht primär
für TeX gedacht.

>> Wie kann die Ausgabe von Einträgen mit »[...]« unterdrücken?
> 
> Aussortieren von Wörtern mit Mehrdeutigkeiten "[a/b]" habe ich nicht
> implementiert.

OK.  Wäre nett zu haben, aber die Anzahl der zusätzlichen Einträge ist
sehr überschaubar und sollte nicht wirklich ins Gewicht fallen.

> In "skripte/lib/py_wortliste/stilfilter.py" habe ich die Funktion
> `einfach()`: [...]

Habe ich gesehen, danke.

>> Nicht wirklich sinnvoll.  Mein Skript benötigt aber explizit die
>> Option »-U«, damit die Ersatzschreibung ausgegeben wird.
> 
> Dann scheint das Gesangs-Make-Ziel -U anzuwenden :(

Aah, ein Tippfehler, jetzt korrigiert.

> Für mich ist das Makefile viel zu unübersichtlich, als dass ich da
> erkennen könnte wo ich etwas ändern müsste.

Wirklich?  Also ich denke, Keno und ich haben das kürzlich ganz gut
aufgeräumt.  Kannst Du da ein bißchen ausholen?  Vielleicht hilft es,
wenn wir mehr Dokumentation ergänzen.


    Werner




Mehr Informationen über die Mailingliste Trennmuster