[Trennmuster] Arbeitslisten

Werner LEMBERG wl at gnu.org
Do Aug 6 08:06:33 CEST 2020


Hallo Keno!


> von den 100 mir angewiesenen Dateien mit potentiell falsch
> getrennten Wörtern aus dem German-dic-Korpus habe ich jetzt 10
> abgearbeitet.  Ich setze die Arbeit auch gerne fort – im gleichen
> gemächlichen Tempo wie bisher.

Ich werde Dir neue Dateien zuschicken, damit die Anzahl von Doubletten
kleiner ist.

> Weiterhin ist mir aufgefallen, dass die Arbeitslisten immer relativ
> viele „Fehleinträge“ enthalten (das heißt hier Einträge, die unnötig
> sind, da die entsprechenden Wörter bereits richtig getrennt werden).
> [...]

Das muß sich Günter genauer anschauen, wenn er aus dem Urlaub zurück
ist.  Ich finde, die Heuristik seiner Helferlein ist bereits ganz
hervorragend, und ...

> Durch eine Verfeinerung der zur Erzeugung der Arbeitslisten
> genutzten Skripte ließen sich derartige Fehleinträge weitgehend
> vermeiden.  Mit Hilfe neuer „künstlicher Ziele“ bei der
> Trennmustererzeugung müsste das möglich sein.

... ich bin mir nicht so sicher, ob das möglich ist.  Günter hat
argumentiert, daß ein Herumschrauben an den Parametern oft zu anderen
Artefakten führt.


    Werner




Mehr Informationen über die Mailingliste Trennmuster