[Trennmuster] Qualitätssicherung der Trennungen bei Änderungen

Mi Sep 16 18:04:34 CEST 2020

Liebe Trennfreunde,

On 15.09.20, Selke, Gisbert W. wrote:
> Am Dienstag, 15. September 2020 um 17:12 schrieb Werner LEMBERG <wl at gnu.org> :

> > > Wäre die Trennmustererzeugung ein KI-Projekt, würde ich mich fragen,
> > > ob der Punkt des Overfitting erreicht ist: Auf dem
> > > Trainingsdatensatz werden die Ergebnisse immer besser, auf dem
> > > Testdatensatz geht es aber nicht mehr recht voran.  Oder ist das
> > > eine schiefe Perspektive?

> > Ich glaube, die Perspektive paßt nicht.  Meiner Meinung nach gibt's
> > kein Overfitting, denn die neu inkludierten Wörter werden *alle*
> > fehlerfrei getrennt – die Qualität verbessert sich also durch deren
> > Inklusion.

Insofern, als dass der Trainingsdatensatz "schon immer" zu 100% korrekt
getrennt wird sind wir im gewissen Sinne schon immer im Overfitting.

Einerseits wächst der Trainingsdatensatz durch die Aufnahme neuer Wörter.

Andererseits ist nicht abzusehen, dass wir jemals *alle* korrekten
deutschen Wörter in der Wortliste haben. (Wir sind gegenwärtig bei ca.
1/3 von german.dic und das wächst ähnlich schnell wie die Wortliste.)
Insofern ist die Betrachtung wie nicht enthaltene Wörter getrennt werden
schon wichtig.

Für mich sind dabei der kritischste Fall Wörter, die mit der letzten
veröffentlichten Version "zufällig" richtig aber mit den aktuellen Mustern
falsch getrennt werden!

> Ja, genau das gehört zum Overfitting. Oxford Dictionaries
> (https://www.lexico.com/definition/overfitting) sagt (im Hinblick auf
> Statistik):
>
>   The production of an analysis which corresponds too closely or
>   exactly to a particular set of data, and may therefore fail to fit
>   additional data or predict future observations reliably.

Das gibt uns einen Hinweis: ggf. müssen wir problematische Sonderfälle
(exotisch getrennte Fremdwörter, explizite Unterdrückungen) aus dem
"Trainingsset" in eine Ausnahmeliste verlegen, wenn sie die Generalisierung
von patgen zu stark stören oder in die falsche Richtung lenken.

Ich hab jetzt noch einmal experimentiert:

Analyse der Auswirkungen der Änderungen seit Version 0.5 (2019-04-04)
auf nicht in der Wortliste enthaltene Wörter.

german-vn3.txt
  Stichprobe 1 618 674 Wörter aus german.dic vom 30.8.2020 
  * nicht in der Wortliste
  * nicht in den "Nichtwörtern"
  * länger als 3 Buchstaben

1. Trennung mit patgen Mustern von Version 0.5
     ../../edit_tools/hyphenate_neueintraege.py -u -d 2019-04-04

2. Trennung mit patgen Mustern von 2020-09-16

-> 65 936 Wörter mit anderer Trennung im Standard-Trennstil seit Version 0.5

Welche davon sind verbessert/verschlechtert/anders falsch?
Schätzen über Vergleich mit zerlegten Wörtern:

1. Bestimmung von Trennstellen durch Abgleich mit der Wortliste.

   42 285 eindeutige Zerlegungsvorschläge
   alternative Zerlegungsvorschläge: 2327
   Rest: 22497

2. Trennung der eindeutigen mit patgen Mustern von 2020-09-16:

   20 325 gleich (evt. Unterschiede in Wichtung/Unterdrückung)
       82 Abweichung bei suffix (">")
    3 507 Abweichung bei fugen ("=")
    2 767 Abweichung bei major ("=" und "<")
   15 599 Abweichung der Standard-Trennstellen

Fazit: 

Für die Standard-Trennstellen sind von den Änderungen als Nebeneffekt
der Neueinträge (inklusive der ß-Umschreibung) 15599/42285 = 37%
"Änderungen zum Schlechten" und 63% "Änderungen zum Guten".
Noch machen wir nicht mehr kaputt als ganz.

Nach der Einsortierung der Arzneiwirkstoffe würde ich die Analyse
aktualisieren und um gemeinsame Bearbeitung der "schlechten" Fälle bitten.   

> > Auf der anderen Seite wäre es durchaus ein interessantes Projekt, den
> > Liangschen Algorithmus durch einen KI-Filter zu ersetzen!  

Der Liangschen Algorithmus ist angewandte KI, er verallgemeinert relativ
erfolgreich von den gegebenen Beispielen auf die Gesamtheit der deutschen
Wörter (Fehlerrate bei den Wörtern, die sich mit wortzerlegung.py
eindeutig zerlegen lassen ca. 2,5%). Ob es für die deutsche Sprache einen
besser angepassten gäbe wäre zu prüfen.

Günter