[Trennmuster] Datenstruktur

Guenter Milde milde at users.sf.net
Di Apr 8 12:34:45 CEST 2014


Liebe Trennmustler,

On  3.04.14, Werner LEMBERG wrote:

> > Ich denke die komprimierte Form ist nur dann sinnvoll, wenn
> >
> > * automatisch und
> >
> > * (nach der Ergänzung fehlender Ableitungen) ohne inhaltliche Änderungen
> >
> > zwischen einer komprimierten und einer expliziten Darstellung
> > gewandelt werden kann.

> Ja.

(Dann könnte mir ja die komprimierte Syntax im Prinzip egal sein und ich
arbeite einfach mit der expandierten Liste ;-)

> > [...] bin ich dafür, die seit ispell eingeführten und inzwischen
> > langbewährten und recht stabilen Flags zu verwenden.

> Also ich weiß nicht...

...

> denn mir gefällt das gar nicht.  Wir brauchen sowieso etwas eigenes,
> da ja auch unsere speziellen Trennmarker zu verarbeiten sind.  Daher
> plädiere ich dafür, daß wir uns an ispell *orientieren*, aber nicht
> diese häßlichen Kürzel übernehmen.  Unsere Lösung soll speziell für
> *unsere* Liste verwendbar sein.

Unsere Trennmarker sind einigermaßen unabhängig, in der "wortliste" würde
ich nur die "keys" markieren, also

   Interferenzmuster/SN;-2-;In-ter<fe-renz=mu-ster;In-ter<fe-renz=mus-ter
   
und nicht 

   Interferenzmuster/SN;-2-;In-ter<fe-renz=mu-ster/SN;In-ter<fe-renz=mus-ter/SN
   
um Redundanz zu vermeiden.

In der "Affixdefinition" müssen wir natürlich die veränderte Trennung bei
Anhängen/Ändern von Suff- und Präfixen beachten.

Für Präfixe ist natürlich auch eine "explizite kompakte Syntax" denkbar:

   (ge|miß|ver|)brauchen;brau-chen
   
(Eine Regel um die optionalen Präfixe bei der Sortierung zu ignorieren
kann leicht in sort.py einprogrammiert werden.)

Für "Familien" von Suffixen wie Deklination und Steigerung von Adjektiven
finde ich die ispell Tags wie /a (Adjektiv) kurz und aussagekräftig.
Vielleicht können wir die auch kombinieren:

   (ge|miß|ver|)brauchen/DIOXY;brau-chen

Dokumentation:

Auch wenn die "kryptischen" Tags augenscheinlich nicht wohldokumentiert
sind, ist die Lektüre der vorhandenen Ressourcen sicher hilfreich, egal
ob wir das Rad nutzen oder neu erfinden wollen.

Die Syntax der Affixdateien ist z.B. in der Manual-Seite hunspell (4)
beschrieben.   
http://manpages.ubuntu.com/manpages/dapper/man4/hunspell.4.html

Die Definitionen für die Deutsch-Wörterbücher von Björn Jacke sind in den
Quellen zum Paket igerman98 in der Datei 
  ispell/de_DE.aff.in
ausführlich kommentiert.

Auf meinem Linux-Rechner ist z.B unter /usr/lib/aspell/de-alt_affix.dat
eine Kurzform dieser Affixdefinitionen mit hilfreichen Kommentaren.


Günter



Mehr Informationen über die Mailingliste Trennmuster