[Trennmuster] Trennmuster mit Umschrift

Werner LEMBERG wl at gnu.org
Mi Jul 1 22:30:00 CEST 2020


> Vor einer neuen Veröffentlichung sollten wir möglichst
> sicherstellen, dass keine bisher korrekt getrennten Wörter mit den
> neuen Mustern falsch getrennt werden (zumindest bei den 90% von
> "germandict" die der Zerlegungsalgorithmus eindeutig "hinkriegt").

OK.

> Das wäre doch eine schöne Zielvorgabe für die Auswahl der nächsten
> Neueinträge.

Ja.

>> Wir müßten wahrscheinlich auch auf die Fehlerfreiheit der Muster
>> verzichten, um noch mehr Regularität zu bekommen.
> 
> Fehlerfreiheit ist ein Gut, dass ich auf keinen Fall aufgeben
> möchte.

Natürlich.  Die Frage ist bloß, ob die Trennmuster selbst fehlerfrei
sein müssen, oder ob es OK ist, wenn Trennmuster plus Ausnahmeliste
alles korrekt trennt.

>> Beispielsweise könnten alle Wörter mit ».« in eine Ausnahmeliste
>> kommen.  Ich bezweifle allerdings, ob das Sinn hat – es gibt in
>> unserer Liste mehr als 20000 Wörter mit ».« ...
> 
> Eher bin ich für die Umsetzung der in READE.wortliste bereits dokumentierten
> mehrstufigen Unterdrücker:
> 
>   Punktzahl  Qualität           Beispiele
>   ---------  -----------------  ------------------------------------
>       1      ungünstig          An<den-.ken, Ost=en-.de, Re<im<.port
>       2      sehr ungünstig     Ge<winn=er<..war-tung
>       3      äußerst ungünstig  An<=al-...pha=bet
> 
> Bisher habe ich den Aufwand immer gescheut.

Ja, das ist sicher sinnvoll – und zeitaufwendig.

> Nach dem Filtern der Ableitungen bleiben 2040 "Eintragskandidaten".
> Das könnte zu schaffen sein.

Durchaus!

> Die Liste ist da und kann an Interessenten verschickt werden.

Ja bitte.  Jetzt beginnen die Ferien, vielleicht komme ich zu mehr als
bloß Korrekturlesen.


    Werner




Mehr Informationen über die Mailingliste Trennmuster