[Trennmuster] Trennmuster mit Umschrift

Guenter Milde milde at users.sf.net
Mi Jul 1 16:49:05 CEST 2020


On 29.06.20, Werner LEMBERG wrote:

> >> Ab sofort werden auch Wörter in Umschrift in den Trennmustern
> >> berücksichtigt.
> > 
> > Ich habe jetzt getestet, wie sich diese Neuerung auf Wörter
> > auswirkt, die *nicht* in der Liste sind: [...]

> Danke.

> > Wie kritisch sehen wir den Anstieg der Fehltrennungen bei nicht in
> > der Wortliste vorhandenen (wahrscheinlich eher selten gebrauchten)
> > Wörtern?  Es sieht jetzt nicht nach einer dramatischen oder
> > systematischen Verschlechterung der Musterqualität/-stabilität aus.

Um mir selbst zu antworten: Vor einer neuen Veröffentlichung sollten wir
möglichst sicherstellen, dass keine bisher korrekt getrennten Wörter mit den
neuen Mustern falsch getrennt werden (zumindest bei den 90% von "germandict"
die der Zerlegungsalgorithmus eindeutig "hinkriegt").

Das wäre doch eine schöne Zielvorgabe für die Auswahl der nächsten
Neueinträge.


> Nach ähnlichen Beobachtungen meinerseits[*] behaupte ich mal, daß wir
> die Trennmuster gänzlich anders aufbauen müßten, um für Wörter
> außerhalb der Liste eine wirkliche Verbesserung zu bekommen.

Mit der gegenwärtigen relativen Fehlerquote von 2.24% ¹
sind die Muster doch schon recht gut.

¹ Stichprobe: 
  1 183 501 Wörter aus german.txt (von Okt 2016), die am 24. 06. 2020
  
  *  nicht in der "wortliste" waren (-v)
  * länger als 3 Buchstaben sind (-3)
  * nicht in den "Nichtwörtern" gelistet waren (-n)
  * mit abgleich_neueintraege.py eindeutig zerlegt werden konnten.

 Abweichungen im Standard-Trennstil: 26 511

> Meine Vermutung ist, daß wir insbesondere sämtliche ».« zu entfernen
> hätten. Mit anderen Worten, je regulärer die Trennmuster, desto besser
> die Trennungen für externe Wörter.  

Jain. Die '-.' sind besonders kritisch, mache aber nur einen Teil der
Fehltrennungen aus. Auch die konkurierenden Prizipien
"Sprechsilbentrennung" vs. "morphologische Trennung" erschweren die
Generalisierung und es kommt zu Fehlern wie

  Abend=mahlspro-ben
  Ab<tas-t=im<puls
  Achsan-zahl

Ein zusätzliches Problem ist, dass mein Zerlegungsalgorithmus bei explizit
unterdrückten Trennungen an die Grenzen kommt (wie soll entschieden werden,
ob die Variante "=in<.ia-tive" oder "=in<ia-tive" genutzt werden soll, wenn
eine Zerlegung mit Grundwort "initiative" erkannt wurde?

In der Folge ist bei einem Großteil der Abweichungen durch explizite
Unterdrückung der Fehler nicht in der Hyphenation sondern in der Zerlegung :-(


> Wir müßten wahrscheinlich auch auf die Fehlerfreiheit der Muster
> verzichten, um noch mehr Regularität zu bekommen.

Fehlerfreiheit ist ein Gut, dass ich auf keinen Fall aufgeben möchte.

Viele der explizit unterdrückten Trennungen sind allerdings kein Fehler,
sondern nur ungünstig, da haben wir etwas Manövrierraum. (Die Regel
"irreführende Trennungen sind zu vermeiden" ist ja sehr schwammig.)

> Beispielsweise könnten alle Wörter mit ».« in eine Ausnahmeliste
> kommen.  Ich bezweifle allerdings, ob das Sinn hat – es gibt in
> unserer Liste mehr als 20000 Wörter mit ».« ...

Eher bin ich für die Umsetzung der in READE.wortliste bereits dokumentierten
mehrstufigen Unterdrücker:

  Punktzahl  Qualität           Beispiele
  ---------  -----------------  ------------------------------------
      1      ungünstig          An<den-.ken, Ost=en-.de, Re<im<.port
      2      sehr ungünstig     Ge<winn=er<..war-tung
      3      äußerst ungünstig  An<=al-...pha=bet

Bisher habe ich den Aufwand immer gescheut.

Evt. kann man in einem ersten Schritt die "schon immer" als ungünstig
markierten Stellen (unter der Annahme, dass das die wirklich schlimmen
sind) mit 2 oder 3 Punkten versehen und dann im Standard-Trennstil erst bei
mehr als 2 Punkten unterdrücken.

Für breite Spalten / lange Zeilen sollte dann der Trennstil "hyphenmin3"
bereitgestellt werden, der einen Mindestabstand von 3 Buchstaben zu Fugen
vorsieht und außerdem auch einfache Punkte unterdrückt.



> > Wie wahrscheinlich ist der Fall, dass Text in Umschrift mit den
> > Standard-Trennmustern gesetzt wird?
> > 
> > Wie wahrscheinlich ist es, dass einzelne Wörter in Umschrift in
> > einem Text auftauchen?

> Beides kann durchaus vorkommen, glaube ich.  Beispielsweise, wenn ein
> Text in Englisch geschrieben ist und für den deutschen Text die
> Umgebung inklusive Trennmuster auf »deutsch« gesetzt wird, trotzdem
> aber die Wörter in Umschrift verwendet werden.

Kommt mir etwas weit hergeholt vor (sorgfältiges Setzen der Sprache aber
Groesse statt Gr"o\sse?).

Gisbert, was war Dein Anwendungsfall?


Andererseits dürfte es mit vertretbarem Aufwand möglich sein, die 
erkannten Folgen abzufangen:

Von der obigen Stichprobe eindeutig zerlegter Wörter werden 4050 Wörter
anders getrennt als es der Zerlegungsalgorithmus erwartet. 

Nach dem Filtern der Ableitungen bleiben 2040 "Eintragskandidaten". 
Das könnte zu schaffen sein. 

Die Liste ist da und kann an Interessenten verschickt werden.

Viele Grüße
Günter



Mehr Informationen über die Mailingliste Trennmuster