[Trennmuster] Datenstruktur

Guenter Milde milde at users.sf.net
Do Apr 3 22:50:11 CEST 2014


On  3.04.14, Stephan Hennig wrote:
> Am 03.04.2014 10:35, schrieb Guenter Milde:
> > On  2.04.14, Georg Pfeiffer wrote:
> > 
> > Da das Aussortieren falscher Einträge **deutlich** aufwendiger ist¹,
> > als das Hinzufügen neuer, bin ich für einen
> > vorsichtigen/konservativen Ansatz:

> Ich ging davon aus, dass jedes passende Wort von Hand in die
> komprimierte Form überführt wird. :-)

Ich denke die komprimierte Form ist nur dann sinnvoll, wenn 

* automatisch und 

* (nach der Ergänzung fehlender Ableitungen) ohne inhaltliche Änderungen

zwischen einer komprimierten und einer expliziten Darstellung gewandelt
werden kann.

> Übrigens kann es sinnvoll sein, die Auszeichnung zur automatischen
> Prefix-/Suffix-Erweiterung in eine zweite oder auch zwei
> unterschiedliche Dateien auszulagern.  

Dann verlieren wir aber ganz schnell die Übersicht.

> Denn wo sollte ein Wort wie

>   an|hin|zurück|kommen

> oder auch

>  (an|hin|zurück)kommen

> in der Wortliste einsortiert werden?


Auch deshalb bin ich dafür, die seit ispell eingeführten und inzwischen
langbewährten und recht stabilen Flags zu verwenden. Also auch Präfix-Flags
anhängen und dann z.B. (ich erfinde schnell mal Flags für (an|hin|zu))

  kommen/ahz

vor 

  Kommerz
  
einsortieren.  

Weitere Gründe für die etablierte Syntax:

* Das Rad ist schon einmal erfunden, und über die Zeit gereift.

  Mit den vorhandenen Flags kann eine explizite Liste aus 300000
  deutschen Wörtern auf 80000 Stämme reduziert werden.
  
* Es existieren bereits Programme für die Hin/Rückwandlung. (Inwieweit sich
  diese mit unserer Trennstellensyntax vertragen ist zu prüfen.)
  
* Potentielle Mitstreiter aus dem Bereich der Rechtschreibprüfung würden
  wir mit einer neuen selbstgestrickten Syntax eher abschrecken,
  aber eine Zusammenarbeit ist äußerst wünschenswert.

Viele Grüße
  
Günter  
  



Mehr Informationen über die Mailingliste Trennmuster