[Trennmuster] wiederer-*

Guenter Milde milde at users.sf.net
So Sep 18 10:02:41 CEST 2016


On 18.09.16, Werner LEMBERG wrote:

> >> Letztens bin ich in einer Zeitschrift über die Trennung
> >> „wiederer-kannt“ gestolpert – diese Trennung ist wirkich ungünstig.
> >> Die aktuelle Wortliste erlaubt diese Trennung. Der Eintrag lautet
> >> „wie-der<er<kannt“. Es gibt insgesamt 133 Einträge auf
> >> „[Ww]iederer-“, alle nach demselben Schema.
> > 
> > Es gibt 622 Einträge mit "[<=]er-" und 65863 Einträge mit [<=]..-
> > 
> > Bitte jetzt nicht überall "verungünstigen".

> Das stimmt schon, allerdings müssen wir auch die Erzeugung von
> gewöhnlichen TeX-Trennmustern im Auge behalten, wo es keinerlei
> Gewichtung gibt.  Wörter, wo »er<er<« auftaucht, sind meiner Meinung
> nach zu markieren – da waren noch eine Handvoll, die hab' ich jetzt
> ebenfalls erledigt.

Handvoll ist aber sehr euphemistisch für 4656 Fälle mit "[=<]er[<-]".

Und eigentlich sind ja alle Trennungen im Abstand 2 vor höherwertigen
Trennungen ungünstig, also alle 120.000 mit "[=<]..[-<]". 
Oder zumindest noch die mit anderen häufigen zweibuchstabigen Endungen
("en", "de", ...).

Ich halte es für ungünstig, diese alle explizit zu bepunkten.

Sinnvoll ist das nur für die "irreführenden" Trennungen -- wenn der erste
Teil ein anderes Wort ergibt, wie Ab<fall=er<zeu-ger

Generell befürworte ich die Regel: 

  Wenn sich die unerwünschten Trennungen aus einem einzelnen Eintrag über
  einfache Regeln gewinnen lassen, dann sollten diese Regeln in das
  Extraktionsskript.
  
  Wenn sich die unerwünschten Trennungen nur über den Abgleich mit anderen
  Einträgen gewinnen lasse (z.b. es wird ein "falsches" Wort gebildet), dann
  sollte die unerwünschte Trennung markiert werden.

Günter



Mehr Informationen über die Mailingliste Trennmuster