[Trennmuster] --lung

Guenter Milde milde at users.sf.net
Mo Feb 24 15:29:29 CET 2014


Liebe Trennmustler,

On 24.02.14, Werner LEMBERG wrote:

> >> Soweit ich weiß, ist der Suffix nämlich »-ung«, und im Deutschen
> >> wird nie genau davor getrennt, sondern immer ein Konsonant (oder
> >> Konsonantencluster) früher.
> >
> > Geht es nicht um die Gewichtung für den optimalen Umbruch?

> Ja, aber...

Gewichtung und Kategorisierung sind zwei unterschiedliche Sachen:

Kategorisierung:
  Bestimmen und Markieren der Kategorie/Klasse/Art der Trennstelle
  (Wortfuge, Trennstelle an Morphemgrenze, normale Trennstelle).

  Theoretisch eindeutig, aber es existieren Grenzfälle (z.B. nicht länger
  als solche wahrgenommene Wortteile).

  In der Quelle ("wortliste" Datei), soll die Kategorie möglichst aller
  Trennstellen explizit markiert werden.


Wichtung:
  Bestimmen der "Güte" der Trennstelle.

  "Gefühlssache", solange keine verläßlichen Untersuchungen zum
  Einfluß der Trennungsalternativen auf den Lesefluß vorliegen.

  Die Kategorie hat einen starken Einfluß auf die Güte einer Trennstelle.
  Weitere Einflußfaktoren sind Abstände zu benachbarten Trennstellen und
  mögliche Fehlinterpretationen der Teile vor und nach der Trennung.
  
  Die Wichtung kann daher in den meisten Fällen mit generell gültigen
  Wichtungsregeln (die z.B. im Extraktionsskript implementiert sein
  können) aus den Kategorien und Abständen der Trennstellen eines Wortes
  bestimmt werden.

  Eine explizite Markierung ist nur nötig, wenn Abweichungen von generell
  gültigen Wichtungsregeln existieren. Wir machen das zur Zeit nur bei

  * zu vermeidenden Trennstellen (Markierung mit ".") und
  * Wortfugen in Mehrfachverbindungen (Markierung mit Verdopplung des "=").


> Derzeit verwenden wir »--« als Suffixmarkierung.  Für »-lung«
> bräuchten wir jedoch eine andere Markierung, denn es ist ja kein
> Suffix mehr, sondern – wenn überhaupt – eine bessere Trennstelle.

Ich denke, das Problem ist, daß wir zur Zeit "--" zur Markierung einer
*Kategorie* "mißbrauchen" während die Doppelung (laut Dokumentation und im
Fall "==") zur *Wichtung* dient.

Wenn wir also normale Trennstellen höherwichten wollen, sollten wir zuvor
eine Einigung über ein neues Trennzeichen für Suffixe erziehlen und alle
Vorkommnisse von "--" als Suffixgrenzmarkierung durch dieses ersetzen.

Wenn ich neu über Trennzeichen entscheiden könnte, wäre mein Vorschlag:

  +  Wortfuge
  <  nach Präfix
  >  vor Suffix
  =  normal (innerhalb von Wortteilen)
  
Bsp:  Ab<bau+mög=lich>kei=ten  


> > Vielleicht habe ich da etwas falsch verstanden mit der
> > Kategorisierung.

> Das denke ich nicht.  Aber wo hört es auf?  Wolltest Du das konsequent
> durchziehen, müßtest Du auch z.B. »-gung« berücksichtigen, und dann
> wird's haarig in Fällen wie

>   Einen-
>   gungen

> Da sehe ich *absolut* nicht mehr eine qualitative Trennung.  Mein
> Beispiel ist natürlich extrem, weil die Trennstelle so nahe am Optimum
> ist (»Ein-engungen«) und daher prinzipiell unterdrückt werden sollte,
> aber trotzdem: Durch die Mitnahme eines Konsonanten des Wortstamms
> reduziert sich die Qualität der Trennstelle deutlich.


Und selbst, wenn

  Ab|be|stel--lun-gen

eine sinnvolle Markierung wäre (woran ich persönlich zweifle), ist die
Doppelung in

  Ab|be|stel--lung

unnötiger Ballast, denn es gibt nur eine "normale" Trennstelle und was
sollte da zu wichten sein?

> > Meinetwegen können die Commits raus, ich hänge nicht daran.  Aber
> > wie macht man das „sauber“?

> Siehe

>   git revert

> Warte aber noch damit, bis andere ihren Senf dazugegeben haben!

Ich bin auch für "revertieren" der "*ung" Markierungen.

"--schaft" kann m.E. aber bleiben.

Dazu aber eine Bitte: Wenn Einträge angefaßt werden, dann bitte auch
Wortfugen markieren!

  Nicht     ·schafts·  ->  --schafts·
  sondern   ·schafts·  ->  --schafts=
  
Das vermeidet doppelte Arbeit bei der Prüfung von Änderungen (die bei
solchen regexp-replace "Orgien" immer nötig ist um falsche Freunde
auszumachen).
 

viele Grüße

Günter



Mehr Informationen über die Mailingliste Trennmuster