[Trennmuster] Qualitätssicherung der Trennungen bei Änderungen
Werner LEMBERG
wl at gnu.org
Di Sep 15 17:12:27 CEST 2020
> Wie schon in einem früheren Posting angesprochen habe ich versucht,
> einen ersten Eindruck davon zu bekommen, wie sich die laufende
> Arbeit an den Trennmustern auf das Ergebnis bei nicht in der
> Wortliste stehenden Wörtern auswirkt.
Danke. Deine Ergebnisse decken sich mit den meinigen.
> Wäre die Trennmustererzeugung ein KI-Projekt, würde ich mich fragen,
> ob der Punkt des Overfitting erreicht ist: Auf dem
> Trainingsdatensatz werden die Ergebnisse immer besser, auf dem
> Testdatensatz geht es aber nicht mehr recht voran. Oder ist das
> eine schiefe Perspektive?
Ich glaube, die Perspektive paßt nicht. Meiner Meinung nach gibt's
kein Overfitting, denn die neu inkludierten Wörter werden *alle*
fehlerfrei getrennt – die Qualität verbessert sich also durch deren
Inklusion. Außerdem werden stets neue Muster eingebracht, die vorher
noch nicht existiert haben. Leider gibt's halt so viele Komposita...
Auf der anderen Seite wäre es durchaus ein interessantes Projekt, den
Liangschen Algorithmus durch einen KI-Filter zu ersetzen! Kennst Du
jemanden, der sich dafür begeistern könnte und das notwendige Wissen
und Können hat?
Werner
Mehr Informationen über die Mailingliste Trennmuster