[Trennmuster] Datenstruktur

Guenter Milde milde at users.sf.net
Do Apr 3 10:35:35 CEST 2014


On  2.04.14, Georg Pfeiffer wrote:
> Am Mittwoch, 2. April 2014, 21:33:12 schrieb Stephan Hennig:

...

> Das ist doch trivial und können wir selber machen, wenn man nur die
> Grundform hat. Löschen wir probeweise alle .*>li-ch.+ -formen, das
> müßten um die 9000 seyn, und lassen nur die .+>lich\b stehen und fügen
> dann per Skript die (auf 1 lich etwa 15) Ableitungen wieder ein und
> sehen, wie das Ergebnis aussieht. Es müßten danach etwas mehr Worte als
> vorher seyn, da bislang nicht alle Formen drin sind.

Da das Aussortieren falscher Einträge **deutlich** aufwendiger ist¹, als das
Hinzufügen neuer, bin ich für einen vorsichtigen/konservativen Ansatz:

* Auffinden der Dokumentation der "Flags" in hunspell. Link oder Text in das
  Repositorium übernehmen.

* Ein "konservatives" Skript, welches verlustfrei zwischen kompakter und
  explziter Form wandelt:
  
   Kompaktieren: Flag für Flag "Familien" suchen, die die komplette
   Expansion enthalten und nur diese wandeln (Ersetzen aller
   ensprechenden Einträge durch einen Eintrag mit Stamm+Flag)
  
   Expandieren:
   Ersetzen aller "geflaggten" Einträge durch die vollständige Expansion.

   
Wenn dann für ausgewählte Flags auch "Fehlertoleranzen" konfigurierbar sind,
kann dies zur allmählichen Komplettierung der Liste dienen - bitte in
kleinen, überschaubaren Schritten mit "manueller" Durchsicht.

In der "konservativen" Form kann das Skript zur Arbeit genutzt werden, indem
je nach Aufgabe die kompakten/expliziten Form der Liste verwendet wird. 
Ich würde weiterhin die explizite Liste im Git-Repositorium halten und die
Kompatkform als abgeleitete Datei ansehen.

Viele Grüße

Günter


  
  
¹ Die Durchsicht der ca. 400 "barsten" Einträge von

    ausdehnbarste;-2-;aus<dehn>bar-ste;aus<dehn>bars-te
    
  bis
  
    zerstörbarstes;-2-;zer<stör>bar-stes;zer<stör>bars-tes
  
  steht noch aus!



Mehr Informationen über die Mailingliste Trennmuster