[Trennmuster] Fehlerchen in `sprachauszug.py` bei Gesangstrennungen?

Guenter Milde milde at users.sf.net
Fr Mär 24 14:35:12 CET 2023


Lieber Werner,

danke für den Hinweis. Es ist komplex:


Am 16.03.23 schrieb Werner LEMBERG:

> Wenn ich den Eintrag

> ```
> Psychiater;-2-;Psych<i·a-ter;Psy-ch<i.a-ter
> ```

> in eine Datei `zzz` gebe und dann

> ```
> sprachauszug.py -l "de-1996,de-1996-x-versal" \
>                 -s "morphemisch,gesangstext,einfach" < zzz
> ```

> aufrufe, bekomme ich `Psych-i-a-ter`.  Stimmt das?

Ja, das stimmt. ;) (So auch hier.)

> Ich hätte stattdessen `Psych-ia-ter` erwartet:

Die Erwartung ist auch richtig.


> * Im morphemischen Stil löst sich »-ch<« zu »ch<« auf.

>   → Psych<i.a-ter

Fast. Es müsste "Psych<i·.a-ter" sein:
im morphemischen Stil ist Psychi-ater eine unzlässige Randtrennung
(genau wie in de-1901, vgl. re<a·gie-ren).

Allerdings ergibt

  sprachauszug.py -s morphemisch zzz

derzeit
  
  Psych<i·a-ter

Die Randtrennung ist korrekt gekennzeichnet aber die
"Schwankungsmarkierung" fehlt (genau wie in de-1901). 

Den Fall "schwankende Randtrennung" haben wir noch nicht berücksichtigt:
die "Iatrie" ohne was davor gibts im Deutschen nicht, bei "Iod" haben
wir einfach kein Trennzeichen und statt "Kaliumiodid" haben wir nur die
Alternativschreibung "Kaliumjodid".


Wir bräuchten also ein neues kombiniertes Trennzeichen "·." für die 
Spalte "de-1901" der 36 Einträge mit "-iatr..." und ggf. auch für Iod und
Iob (Hiob).
Dazu Dokumentation und Anpassung der Verarbeitungsskripte.

Günter




Mehr Informationen über die Mailingliste Trennmuster