[Trennmuster] --lung
Guenter Milde
milde at users.sf.net
Mo Feb 24 15:29:29 CET 2014
Liebe Trennmustler,
On 24.02.14, Werner LEMBERG wrote:
> >> Soweit ich weiß, ist der Suffix nämlich »-ung«, und im Deutschen
> >> wird nie genau davor getrennt, sondern immer ein Konsonant (oder
> >> Konsonantencluster) früher.
> >
> > Geht es nicht um die Gewichtung für den optimalen Umbruch?
> Ja, aber...
Gewichtung und Kategorisierung sind zwei unterschiedliche Sachen:
Kategorisierung:
Bestimmen und Markieren der Kategorie/Klasse/Art der Trennstelle
(Wortfuge, Trennstelle an Morphemgrenze, normale Trennstelle).
Theoretisch eindeutig, aber es existieren Grenzfälle (z.B. nicht länger
als solche wahrgenommene Wortteile).
In der Quelle ("wortliste" Datei), soll die Kategorie möglichst aller
Trennstellen explizit markiert werden.
Wichtung:
Bestimmen der "Güte" der Trennstelle.
"Gefühlssache", solange keine verläßlichen Untersuchungen zum
Einfluß der Trennungsalternativen auf den Lesefluß vorliegen.
Die Kategorie hat einen starken Einfluß auf die Güte einer Trennstelle.
Weitere Einflußfaktoren sind Abstände zu benachbarten Trennstellen und
mögliche Fehlinterpretationen der Teile vor und nach der Trennung.
Die Wichtung kann daher in den meisten Fällen mit generell gültigen
Wichtungsregeln (die z.B. im Extraktionsskript implementiert sein
können) aus den Kategorien und Abständen der Trennstellen eines Wortes
bestimmt werden.
Eine explizite Markierung ist nur nötig, wenn Abweichungen von generell
gültigen Wichtungsregeln existieren. Wir machen das zur Zeit nur bei
* zu vermeidenden Trennstellen (Markierung mit ".") und
* Wortfugen in Mehrfachverbindungen (Markierung mit Verdopplung des "=").
> Derzeit verwenden wir »--« als Suffixmarkierung. Für »-lung«
> bräuchten wir jedoch eine andere Markierung, denn es ist ja kein
> Suffix mehr, sondern – wenn überhaupt – eine bessere Trennstelle.
Ich denke, das Problem ist, daß wir zur Zeit "--" zur Markierung einer
*Kategorie* "mißbrauchen" während die Doppelung (laut Dokumentation und im
Fall "==") zur *Wichtung* dient.
Wenn wir also normale Trennstellen höherwichten wollen, sollten wir zuvor
eine Einigung über ein neues Trennzeichen für Suffixe erziehlen und alle
Vorkommnisse von "--" als Suffixgrenzmarkierung durch dieses ersetzen.
Wenn ich neu über Trennzeichen entscheiden könnte, wäre mein Vorschlag:
+ Wortfuge
< nach Präfix
> vor Suffix
= normal (innerhalb von Wortteilen)
Bsp: Ab<bau+mög=lich>kei=ten
> > Vielleicht habe ich da etwas falsch verstanden mit der
> > Kategorisierung.
> Das denke ich nicht. Aber wo hört es auf? Wolltest Du das konsequent
> durchziehen, müßtest Du auch z.B. »-gung« berücksichtigen, und dann
> wird's haarig in Fällen wie
> Einen-
> gungen
> Da sehe ich *absolut* nicht mehr eine qualitative Trennung. Mein
> Beispiel ist natürlich extrem, weil die Trennstelle so nahe am Optimum
> ist (»Ein-engungen«) und daher prinzipiell unterdrückt werden sollte,
> aber trotzdem: Durch die Mitnahme eines Konsonanten des Wortstamms
> reduziert sich die Qualität der Trennstelle deutlich.
Und selbst, wenn
Ab|be|stel--lun-gen
eine sinnvolle Markierung wäre (woran ich persönlich zweifle), ist die
Doppelung in
Ab|be|stel--lung
unnötiger Ballast, denn es gibt nur eine "normale" Trennstelle und was
sollte da zu wichten sein?
> > Meinetwegen können die Commits raus, ich hänge nicht daran. Aber
> > wie macht man das „sauber“?
> Siehe
> git revert
> Warte aber noch damit, bis andere ihren Senf dazugegeben haben!
Ich bin auch für "revertieren" der "*ung" Markierungen.
"--schaft" kann m.E. aber bleiben.
Dazu aber eine Bitte: Wenn Einträge angefaßt werden, dann bitte auch
Wortfugen markieren!
Nicht ·schafts· -> --schafts·
sondern ·schafts· -> --schafts=
Das vermeidet doppelte Arbeit bei der Prüfung von Änderungen (die bei
solchen regexp-replace "Orgien" immer nötig ist um falsche Freunde
auszumachen).
viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster