[Trennmuster] Probleme mit »abgleich_neueintraege.py«
Guenter Milde
milde at users.sf.net
Di Apr 24 18:11:44 CEST 2018
On 21.04.18, Werner LEMBERG wrote:
> Folgende Testeingabe
> Aareal
> abwracken
> ergibt mit
> ./abgleich_neueintraege.py < test > test.out
> folgende Ausgabe:
> ## identisch rekonstruiert:
> ## eindeutig abgeleitet
> Aareal;Aa=re-al
> abwracken;-2-;ab<wra{ck/k-k}en;ab<wra-cken
> ## eindeutig abgeleitet (andere Großschreibung)
> ## mehrdeutig abgeleitet
> ## Rest
> Was genau bedeutet »eindeutig abgeleitet«?
Es bedeutet, dass nur eine Ableitung gefunden wurde. Das kann ein gutes
Zeichen sein, ist aber keine Garantier für Richtigkeit.
Es ist das Gegenteil zu "mehrdeutig abgeleitet", z.B.
Abwurfstange;Ab<wurf=stan-ge
Abwurfstange;Ab<wurfs=tan-ge
> Ich hätte erwartet, daß das Skript das Wort »abwracken« als »bereits
> vorhanden« (o.ä.) klassifiziert und gar nicht erst weiter behandelt –
> zumindest sollte das Wort nicht in der gleichen Kategorie wie das neue
> (und falsche) Wort »Aareal« stehen.
Der Anwendungsfall für das Skript ist *Neueinträge* abzugleichen.
Wenn die Eingangsliste neue und vorhandene Einträge gemischt enthält, kann
mit der Option --filter eine "reine Neuliste" erstellt werden.
Ob diese gültige Wörter der deutschen Gegenwartssprache mit einer
eintragswürdigen Häufigkeitsklasse sind wird nicht getestet.
Sowohlt das Aareal als auch die Abwurfs=tange zeigen, dass das Skript dazu
auch nicht wirklich in der Lage ist. Dazu gibt es einfach zu viele unsinnige
kombinationen aus den vorhandenen Wörtern.
Wenn die Eingangsliste gültige und unsinnige Wörter gemischt enthält, sollte
mit einer Rechtschreibprüfung und scharfem Blick vorsortiert werden.
Günter
Mehr Informationen über die Mailingliste Trennmuster