[Trennmuster] Datenstruktur
Guenter Milde
milde at users.sf.net
Do Apr 3 10:35:35 CEST 2014
On 2.04.14, Georg Pfeiffer wrote:
> Am Mittwoch, 2. April 2014, 21:33:12 schrieb Stephan Hennig:
...
> Das ist doch trivial und können wir selber machen, wenn man nur die
> Grundform hat. Löschen wir probeweise alle .*>li-ch.+ -formen, das
> müßten um die 9000 seyn, und lassen nur die .+>lich\b stehen und fügen
> dann per Skript die (auf 1 lich etwa 15) Ableitungen wieder ein und
> sehen, wie das Ergebnis aussieht. Es müßten danach etwas mehr Worte als
> vorher seyn, da bislang nicht alle Formen drin sind.
Da das Aussortieren falscher Einträge **deutlich** aufwendiger ist¹, als das
Hinzufügen neuer, bin ich für einen vorsichtigen/konservativen Ansatz:
* Auffinden der Dokumentation der "Flags" in hunspell. Link oder Text in das
Repositorium übernehmen.
* Ein "konservatives" Skript, welches verlustfrei zwischen kompakter und
explziter Form wandelt:
Kompaktieren: Flag für Flag "Familien" suchen, die die komplette
Expansion enthalten und nur diese wandeln (Ersetzen aller
ensprechenden Einträge durch einen Eintrag mit Stamm+Flag)
Expandieren:
Ersetzen aller "geflaggten" Einträge durch die vollständige Expansion.
Wenn dann für ausgewählte Flags auch "Fehlertoleranzen" konfigurierbar sind,
kann dies zur allmählichen Komplettierung der Liste dienen - bitte in
kleinen, überschaubaren Schritten mit "manueller" Durchsicht.
In der "konservativen" Form kann das Skript zur Arbeit genutzt werden, indem
je nach Aufgabe die kompakten/expliziten Form der Liste verwendet wird.
Ich würde weiterhin die explizite Liste im Git-Repositorium halten und die
Kompatkform als abgeleitete Datei ansehen.
Viele Grüße
Günter
¹ Die Durchsicht der ca. 400 "barsten" Einträge von
ausdehnbarste;-2-;aus<dehn>bar-ste;aus<dehn>bars-te
bis
zerstörbarstes;-2-;zer<stör>bar-stes;zer<stör>bars-tes
steht noch aus!
Mehr Informationen über die Mailingliste Trennmuster