[Trennmuster] Datenstruktur

Stephan Hennig mailing_list at arcor.de
Do Apr 3 19:26:53 CEST 2014


Am 03.04.2014 10:35, schrieb Guenter Milde:
> On  2.04.14, Georg Pfeiffer wrote:
> 
>> Das ist doch trivial und können wir selber machen, wenn man nur die
>> Grundform hat. Löschen wir probeweise alle .*>li-ch.+ -formen, das
>> müßten um die 9000 seyn, und lassen nur die .+>lich\b stehen und fügen
>> dann per Skript die (auf 1 lich etwa 15) Ableitungen wieder ein und
>> sehen, wie das Ergebnis aussieht. Es müßten danach etwas mehr Worte als
>> vorher seyn, da bislang nicht alle Formen drin sind.
> 
> Da das Aussortieren falscher Einträge **deutlich** aufwendiger ist¹, als das
> Hinzufügen neuer, bin ich für einen vorsichtigen/konservativen Ansatz:

Ich ging davon aus, dass jedes passende Wort von Hand in die
komprimierte Form überführt wird. :-)

Übrigens kann es sinnvoll sein, die Auszeichnung zur automatischen
Prefix-/Suffix-Erweiterung in eine zweite oder auch zwei
unterschiedliche Dateien auszulagern.  Denn wo sollte ein Wort wie

  an|hin|zurück|kommen

oder auch

 (an|hin|zurück)kommen

in der Wortliste einsortiert werden?

Viele Grüße,
Stephan Hennig




Mehr Informationen über die Mailingliste Trennmuster