[Trennmuster] Neues Wortlistenformat (ehemals: Alternative Eintragskandidaten)
Keno Wehr
wehr at abgol.de
Mi Sep 22 16:34:53 CEST 2021
Am 06.09.21 um 17:09 schrieb Werner LEMBERG:
>> Mein Arbeitsgang ist folgender:
>>
>> 1. Umwandlung der Wortliste ins grammatische Kurzformat (über das
>> Kurzformat)
> Langfristig wäre es gut, wenn wir auf dieses Format wechseln [...]
Aus technischer Sicht sehe ich kein Problem, aber ...
> Die einzige Frage bleibt, wann und wie wir wechseln. Günters
> Helferchen müßten wohl auch entsprechend angepaßt werden.
... es gibt noch weitere Fragen.
1. Das Kurzformat und das von mir vorgeschlagene grammatische Kurzformat
haben keinen ungetrennten Eintrag und sind daher nicht ohne Weiteres auf
ein Wort oder einen Wortteil durchsuchbar. Wenn es dabei bleibt, müsste
man für eine Suche ins Langformat wechseln. Man könnte natürlich auch
ein Feld mit dem ungetrennten Wort ergänzen, was aber zu Lasten der
Kompaktheit ginge.
2. Im grammatischen Kurzformat, das algorithmisch aus dem Langformat
generiert wird, gibt es eine Reihe von Phantomeinträgen, was nach meiner
Einschätzung prinzipiell nicht vermeidbar ist. Beispielsweise wird das
Adverb „erst“ als Adjektiv klassifiziert, da es auch die Einträge
„erster“, „erstes“ etc. in der Liste gibt. Wenn dieses Format die
offizielle Referenz darstellen soll, sind solche Fehleinträge nicht
wünschenswert, auch wenn aus ihnen keinen falschen Formen erzeugt
werden. Wer aber soll die gesamte Liste auf solche Einträge hin
durchsehen, die auch im grammatischen Kurzformat noch knapp 250.000
Einträge hat?
Keno
Mehr Informationen über die Mailingliste Trennmuster