[Trennmuster] Datenstruktur
Guenter Milde
milde at users.sf.net
Do Apr 3 22:50:11 CEST 2014
On 3.04.14, Stephan Hennig wrote:
> Am 03.04.2014 10:35, schrieb Guenter Milde:
> > On 2.04.14, Georg Pfeiffer wrote:
> >
> > Da das Aussortieren falscher Einträge **deutlich** aufwendiger ist¹,
> > als das Hinzufügen neuer, bin ich für einen
> > vorsichtigen/konservativen Ansatz:
> Ich ging davon aus, dass jedes passende Wort von Hand in die
> komprimierte Form überführt wird. :-)
Ich denke die komprimierte Form ist nur dann sinnvoll, wenn
* automatisch und
* (nach der Ergänzung fehlender Ableitungen) ohne inhaltliche Änderungen
zwischen einer komprimierten und einer expliziten Darstellung gewandelt
werden kann.
> Übrigens kann es sinnvoll sein, die Auszeichnung zur automatischen
> Prefix-/Suffix-Erweiterung in eine zweite oder auch zwei
> unterschiedliche Dateien auszulagern.
Dann verlieren wir aber ganz schnell die Übersicht.
> Denn wo sollte ein Wort wie
> an|hin|zurück|kommen
> oder auch
> (an|hin|zurück)kommen
> in der Wortliste einsortiert werden?
Auch deshalb bin ich dafür, die seit ispell eingeführten und inzwischen
langbewährten und recht stabilen Flags zu verwenden. Also auch Präfix-Flags
anhängen und dann z.B. (ich erfinde schnell mal Flags für (an|hin|zu))
kommen/ahz
vor
Kommerz
einsortieren.
Weitere Gründe für die etablierte Syntax:
* Das Rad ist schon einmal erfunden, und über die Zeit gereift.
Mit den vorhandenen Flags kann eine explizite Liste aus 300000
deutschen Wörtern auf 80000 Stämme reduziert werden.
* Es existieren bereits Programme für die Hin/Rückwandlung. (Inwieweit sich
diese mit unserer Trennstellensyntax vertragen ist zu prüfen.)
* Potentielle Mitstreiter aus dem Bereich der Rechtschreibprüfung würden
wir mit einer neuen selbstgestrickten Syntax eher abschrecken,
aber eine Zusammenarbeit ist äußerst wünschenswert.
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster