[Trennmuster] Fechterhalle
Guenter Milde
milde at users.sf.net
Fr Apr 27 22:42:26 CEST 2018
On 27.04.18, Arthur Reutenauer wrote:
> > Sicher. Einfach eine große Liste von Wörtern nehmen, die nicht in der
> > Wortliste ist. Die Trennmuster, die a̶m̶¹ meisten dieser Wörter korrekt
> > trennen, haben gewonnen.
¹die
> Aber dafür muss man schon eine solche Liste haben...
Haben wir (ca. 1 500 000 Wörter aus "german.dic" sind nicht in der Liste).
Was wir nicht haben, ist eine Liste von korrekt getrennten Wörtern die nicht
in der Liste sind. Bisher habe ich alle Wörter die ich von dort durchgesehen
habe danach in die Liste eingepflegt.
Für statistische Analysen ist es in solchen Fällen üblich, die vorhandene
Stichprobe zufällig zu zerlegen und dann mit dem einen Teil zu lernen und
den anderen als Prüfstichprobe zu verwenden.
Aber es dürfte auch nicht allzu schwer sein, eine neue Stichprobe aus den
in der Wortliste nicht enthaltenen Wörter mit "abgleich_neueinträge" zu
trennen und dann nach manueller Durchsicht für Experimente zu nutzen.
(Und wenn wir die Wörter hinterher einpflegen ist der Aufwand auch nicht
ganz umsonst...)
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster