[Trennmuster] Datenstruktur
Stephan Hennig
mailing_list at arcor.de
Do Apr 3 19:26:53 CEST 2014
Am 03.04.2014 10:35, schrieb Guenter Milde:
> On 2.04.14, Georg Pfeiffer wrote:
>
>> Das ist doch trivial und können wir selber machen, wenn man nur die
>> Grundform hat. Löschen wir probeweise alle .*>li-ch.+ -formen, das
>> müßten um die 9000 seyn, und lassen nur die .+>lich\b stehen und fügen
>> dann per Skript die (auf 1 lich etwa 15) Ableitungen wieder ein und
>> sehen, wie das Ergebnis aussieht. Es müßten danach etwas mehr Worte als
>> vorher seyn, da bislang nicht alle Formen drin sind.
>
> Da das Aussortieren falscher Einträge **deutlich** aufwendiger ist¹, als das
> Hinzufügen neuer, bin ich für einen vorsichtigen/konservativen Ansatz:
Ich ging davon aus, dass jedes passende Wort von Hand in die
komprimierte Form überführt wird. :-)
Übrigens kann es sinnvoll sein, die Auszeichnung zur automatischen
Prefix-/Suffix-Erweiterung in eine zweite oder auch zwei
unterschiedliche Dateien auszulagern. Denn wo sollte ein Wort wie
an|hin|zurück|kommen
oder auch
(an|hin|zurück)kommen
in der Wortliste einsortiert werden?
Viele Grüße,
Stephan Hennig
Mehr Informationen über die Mailingliste Trennmuster