[Trennmuster] Gesangstextunterschiede
Guenter Milde
milde at users.sf.net
Mi Jul 5 12:29:44 CEST 2023
Hallo Werner,
Am 4.07.23 schrieb Werner LEMBERG:
...
> > de_DE.utf8 ist installiert und `echo $LANG` ergibt "de_DE.UTF-8".
> >
> > Sortieren mit `sort -d` ergibt die von mir bemängelte "merkwürdige"
> > Sortierordnung.
> >
> > Sortieren `sort` (ohne Option) ergibt die gewünschte
> > Duden-Sortierung.
> Interessant. Welche Version von `sort` ist das? Bist Du auf einem
> GNU/Linux-System? Ich habe GNU sort 8.32 (von 2020) und libc 2.31.
sort (GNU coreutils) 8.32 on Debian/(old)stable (old seit Mitte Juni)
mit libc6 2.31-13+deb11u.
> >> Was genau meinst du mit »zufällig«? In der Regel spielt es für
> >> einigermaßen regulär aufgebaute Worte überhaupt keine Rolle, ob es
> >> einen Eintrag in unserer Wortliste gibt oder nicht, weil
> >> »benachbarte« Einträge gut genug für die Erzeugung der Trennmuster
> >> sind.
> >
> > Aber die mehrdeutigen Wörter sind genau die "Problemfälle", wo
> > unterschiedlich getrennte "Nachbarn" konkurrieren. [...]
> Ich vertrete da einen pragmatischen Ansatz: Gesangstrennungen können
> nur Vorschläge liefern, wie Trennungen zu handhaben sind, und
> Verbesserungen sind deutlich Grenzen gesetzt. Dein klassisches
> Beispiel sind die Trennstellen im Wort »Millionen«, und Fälle wie
> »Altanbau« sind meiner Meinung nach sehr ähnlich.
Einen wichtigen Unterschied gibt es:
* Bei "Millionen" (sowie generell bei Mellismen) ist der Fehlerfall
schnell zu erkennen: die Melodie-Text-Zuordnung stimmt nicht mehr, es
ist am Ende entweder Melodie oder Text übrig.¹
* Bei Alt-an-bau vs. Al-tan-bau ist der Fehler leicht zu übersehen.¹
Insofern ist gerade für den Fall von "Trennvorschlägen" die explizite
Unterdrückung ("Altan-bau") in mehrdeutigen Fällen m.E. besser geeignet
als eine Trennung an von uns nicht (direkt) vorherzusehenden Stellen.
Was die Auswirkung auf die Trennung "benachbarter" Wörter betrifft:
Statt 2 konkurrierender Möglichkeiten ("alt-an" vs. "al-tan") haben wir
dann 3 ("alt-an" vs. "al-tan" vs. "altan"). Damit ist die "Störung" durch
die Mehrdeutigkeit ggf. größer. Allerdings ist das Resultat genau wie im
bekannten mehrdeutigen Wort: im Zweifelsfall unterdrücken:
+-0 bekannte Wörter und ihre "unmittelbaren Nachbarn" sind nicht betroffen.
+1 weniger eindeutige Falschtrennung für unbekannte Wörter
-1 weniger richtige Trennung für unbekannte Wörter
Nach meiner obigen Logik (wenn falsch, dann ist "sichtbar falsch" besser als
"bisschen falsch") ist das gerade für Trennvorschläge ein Gewinn.
Günter
¹ Das ist vergleichbar mit den übervollen Zeilen in normalem Text wenn
Trennmöglichkeiten im Zweifelsfall unterdrückt werden.
² Vergleichbar mit einer falschen Trennung am Ende einer normal gefüllten
Zeile im normalen Text.
Mehr Informationen über die Mailingliste Trennmuster