[Trennmuster] Wichtung von Woertern in Patgen (was: Woerter mit zwei und drei Buchstaben)
Guenter Milde
milde at users.sf.net
Fr Aug 1 10:17:34 CEST 2014
On 31.07.14, Stephan Hennig wrote:
> Am 31.07.2014 14:14, schrieb Guenter Milde:
> > On 30.07.14, Stephan Hennig wrote:
...
> >> Die Hoffnung ist, dass sich durch Abwertung von Wörtern, die die
> >> Strukturen der Wörter der deutschen Sprache brechen, in irgend einer
> >> Form die Qualität der Muster verbessern ließe.
...
> > =====================================================================
> > Die im Endeffekt wichtigste Eigenschaft ist die korrekte Trennung von
> > möglichst vielen in der Liste nicht erfaßten Wörtern und Verbindungen!
> > =====================================================================
> >
> > Wie man diese Größe messen kann ist mir (abgesehen von Tests mit einem
> > umfangreicheren Korpus als unserer Trennliste) leider nicht bekannt.
> Selbst ein solcher Test ist nicht ohne weiteres aussagekräftig. Wenn
> die konventionellen Muster eine irreführende Trennung zulassen, mit
> unseren Mustern eine solche Trennung aber verhindert wird, welche Muster
> sind dann besser?
Der Vergleichskorpus muss inklusive geprüft korrekter Trennungen vorliegen.
Aber es gibt eine Methode, wie auch ohne einen externen Vergleichskorpus die
Güte der Muster für nicht angelernte Wörter geprüft werden kann:
* Aus der "Wortliste" eine zufällige Stichprobe ziehen (mit einer noch
festzulegenden Größe von 10000 bis 200000 Wörtern).
* Diese Stichprobe mit unterschiedlichen Gewichtungsalgorithmen
(ungewichtet, simpel, ...) zu patgen-Eingabedateien verarbeiten.
* Die Zahl fehlerhafter und die Zahl unerkannter Trennungen für alle Muster
der Wortliste (und/oder für alle "normalen" Muster der Wortliste) bestimmen.
Das ist rechenaufwendig aber automatisierbar.
Wenn wir dies für eine hinreichend große Zahl von Zufallsstichproben machen,
haben wir eine verläßliche Datenbasis für die statistische Analyse
der Anwendbarkeit von Mustersätzen auf ungelernte Wörter.
Das Ganze sieht nach einem Diplom-/Magister-/Bachelorarbeitsthema aus...
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster