[Trennmuster] Trennmuster mit Umschrift
Werner LEMBERG
wl at gnu.org
Mi Jul 1 22:30:00 CEST 2020
> Vor einer neuen Veröffentlichung sollten wir möglichst
> sicherstellen, dass keine bisher korrekt getrennten Wörter mit den
> neuen Mustern falsch getrennt werden (zumindest bei den 90% von
> "germandict" die der Zerlegungsalgorithmus eindeutig "hinkriegt").
OK.
> Das wäre doch eine schöne Zielvorgabe für die Auswahl der nächsten
> Neueinträge.
Ja.
>> Wir müßten wahrscheinlich auch auf die Fehlerfreiheit der Muster
>> verzichten, um noch mehr Regularität zu bekommen.
>
> Fehlerfreiheit ist ein Gut, dass ich auf keinen Fall aufgeben
> möchte.
Natürlich. Die Frage ist bloß, ob die Trennmuster selbst fehlerfrei
sein müssen, oder ob es OK ist, wenn Trennmuster plus Ausnahmeliste
alles korrekt trennt.
>> Beispielsweise könnten alle Wörter mit ».« in eine Ausnahmeliste
>> kommen. Ich bezweifle allerdings, ob das Sinn hat – es gibt in
>> unserer Liste mehr als 20000 Wörter mit ».« ...
>
> Eher bin ich für die Umsetzung der in READE.wortliste bereits dokumentierten
> mehrstufigen Unterdrücker:
>
> Punktzahl Qualität Beispiele
> --------- ----------------- ------------------------------------
> 1 ungünstig An<den-.ken, Ost=en-.de, Re<im<.port
> 2 sehr ungünstig Ge<winn=er<..war-tung
> 3 äußerst ungünstig An<=al-...pha=bet
>
> Bisher habe ich den Aufwand immer gescheut.
Ja, das ist sicher sinnvoll – und zeitaufwendig.
> Nach dem Filtern der Ableitungen bleiben 2040 "Eintragskandidaten".
> Das könnte zu schaffen sein.
Durchaus!
> Die Liste ist da und kann an Interessenten verschickt werden.
Ja bitte. Jetzt beginnen die Ferien, vielleicht komme ich zu mehr als
bloß Korrekturlesen.
Werner
Mehr Informationen über die Mailingliste Trennmuster