[Trennmuster] Qualitätssicherung der Trennungen bei Änderungen

Selke, Gisbert W. gisbert.selke at wido.bv.aok.de
Di Sep 15 22:41:38 CEST 2020


Am Dienstag, 15. September 2020 um 17:12 schrieb Werner LEMBERG <wl at gnu.org> :
> > Wäre die Trennmustererzeugung ein KI-Projekt, würde ich mich fragen,
> > ob der Punkt des Overfitting erreicht ist: Auf dem
> > Trainingsdatensatz werden die Ergebnisse immer besser, auf dem
> > Testdatensatz geht es aber nicht mehr recht voran.  Oder ist das
> > eine schiefe Perspektive?

> Ich glaube, die Perspektive paßt nicht.  Meiner Meinung nach gibt's
> kein Overfitting, denn die neu inkludierten Wörter werden *alle*
>fehlerfrei getrennt – die Qualität verbessert sich also durch deren
> Inklusion.
Ja, genau das gehört zum Overfitting. Oxford Dictionaries (https://www.lexico.com/definition/overfitting) sagt (im Hinblick auf Statistik):
The production of an analysis which corresponds too closely or exactly to a particular set of data, and may therefore fail to fit additional data or predict future observations reliably.

Tatsächlich war die von mir genannte Position aber deutlich übertrieben. Grob abgeschätzt haben in dem Monat die rd. 1800 Neueinträge plus 80 Korrekturen etwa 3300 neuerdings korrekte Trennungen (1880 neue/korrigierte Wortlisten-Einträge plus 1400 weitere (Nicht-Wortlisten-)Wörter) hervorgebracht, dem stehen rd. 1000 neuerdings falsche oder unvollständige Einträge gegenüber und rd. 400 geänderte, aber immer noch nicht richtige. 
Das ist netto natürlich sehr wohl eine Verbesserung für das "echte Leben"!

> Außerdem werden stets neue Muster eingebracht, die vorher
> noch nicht existiert haben.  Leider gibt's halt so viele Komposita...
Blöde natürliche Sprachen :-) Und dann noch so eine mit Bandwurmwortneubildungsvorliebenunterstützung.

> Auf der anderen Seite wäre es durchaus ein interessantes Projekt, den
> Liangschen Algorithmus durch einen KI-Filter zu ersetzen!  
Hehe. Warum hatte ich vorhin beim Schreiben meiner Mail denselben Gedanken? So mal rein theoretisch. Spannende Idee.

> Kennst Du jemanden, der sich dafür begeistern könnte und das notwendige Wissen
> und Können hat?
Leider nein. Das wär aber ein schönes Thema für eine Diss (wie damals bei Frank Liang). Leider wohne ich nicht in Akademien und hab deswegen keine Doktoranden, die ich damit ärgern könnte. Sonst jemand hier auf der Liste?

\Gisbert





    Werner




Mehr Informationen über die Mailingliste Trennmuster