[Trennmuster] Trennmuster mit Umschrift

Mi Jul 1 22:30:00 CEST 2020

> Vor einer neuen Veröffentlichung sollten wir möglichst
> sicherstellen, dass keine bisher korrekt getrennten Wörter mit den
> neuen Mustern falsch getrennt werden (zumindest bei den 90% von
> "germandict" die der Zerlegungsalgorithmus eindeutig "hinkriegt").

OK.

> Das wäre doch eine schöne Zielvorgabe für die Auswahl der nächsten
> Neueinträge.

Ja.

>> Wir müßten wahrscheinlich auch auf die Fehlerfreiheit der Muster
>> verzichten, um noch mehr Regularität zu bekommen.
> 
> Fehlerfreiheit ist ein Gut, dass ich auf keinen Fall aufgeben
> möchte.

Natürlich.  Die Frage ist bloß, ob die Trennmuster selbst fehlerfrei
sein müssen, oder ob es OK ist, wenn Trennmuster plus Ausnahmeliste
alles korrekt trennt.

>> Beispielsweise könnten alle Wörter mit ».« in eine Ausnahmeliste
>> kommen.  Ich bezweifle allerdings, ob das Sinn hat – es gibt in
>> unserer Liste mehr als 20000 Wörter mit ».« ...
> 
> Eher bin ich für die Umsetzung der in READE.wortliste bereits dokumentierten
> mehrstufigen Unterdrücker:
> 
>   Punktzahl  Qualität           Beispiele
>   ---------  -----------------  ------------------------------------
>       1      ungünstig          An<den-.ken, Ost=en-.de, Re<im<.port
>       2      sehr ungünstig     Ge<winn=er<..war-tung
>       3      äußerst ungünstig  An<=al-...pha=bet
> 
> Bisher habe ich den Aufwand immer gescheut.

Ja, das ist sicher sinnvoll – und zeitaufwendig.

> Nach dem Filtern der Ableitungen bleiben 2040 "Eintragskandidaten".
> Das könnte zu schaffen sein.

Durchaus!

> Die Liste ist da und kann an Interessenten verschickt werden.

Ja bitte.  Jetzt beginnen die Ferien, vielleicht komme ich zu mehr als
bloß Korrekturlesen.

    Werner