[Trennmuster] Datenstruktur

Do Apr 3 22:50:11 CEST 2014

On  3.04.14, Stephan Hennig wrote:
> Am 03.04.2014 10:35, schrieb Guenter Milde:
> > On  2.04.14, Georg Pfeiffer wrote:
> > 
> > Da das Aussortieren falscher Einträge **deutlich** aufwendiger ist¹,
> > als das Hinzufügen neuer, bin ich für einen
> > vorsichtigen/konservativen Ansatz:

> Ich ging davon aus, dass jedes passende Wort von Hand in die
> komprimierte Form überführt wird. :-)

Ich denke die komprimierte Form ist nur dann sinnvoll, wenn 

* automatisch und 

* (nach der Ergänzung fehlender Ableitungen) ohne inhaltliche Änderungen

zwischen einer komprimierten und einer expliziten Darstellung gewandelt
werden kann.

> Übrigens kann es sinnvoll sein, die Auszeichnung zur automatischen
> Prefix-/Suffix-Erweiterung in eine zweite oder auch zwei
> unterschiedliche Dateien auszulagern.  

Dann verlieren wir aber ganz schnell die Übersicht.

> Denn wo sollte ein Wort wie

>   an|hin|zurück|kommen

> oder auch

>  (an|hin|zurück)kommen

> in der Wortliste einsortiert werden?

Auch deshalb bin ich dafür, die seit ispell eingeführten und inzwischen
langbewährten und recht stabilen Flags zu verwenden. Also auch Präfix-Flags
anhängen und dann z.B. (ich erfinde schnell mal Flags für (an|hin|zu))

  kommen/ahz

vor 

  Kommerz

einsortieren.  

Weitere Gründe für die etablierte Syntax:

* Das Rad ist schon einmal erfunden, und über die Zeit gereift.

  Mit den vorhandenen Flags kann eine explizite Liste aus 300000
  deutschen Wörtern auf 80000 Stämme reduziert werden.

* Es existieren bereits Programme für die Hin/Rückwandlung. (Inwieweit sich
  diese mit unserer Trennstellensyntax vertragen ist zu prüfen.)

* Potentielle Mitstreiter aus dem Bereich der Rechtschreibprüfung würden
  wir mit einer neuen selbstgestrickten Syntax eher abschrecken,
  aber eine Zusammenarbeit ist äußerst wünschenswert.

Viele Grüße

Günter