[Trennmuster] Datenstruktur
Werner LEMBERG
wl at gnu.org
Mi Apr 2 06:43:56 CEST 2014
> ich habe ja schon ein paarmal über die Datenstruktur gemeckert. Zu
> zahllosen Stämmen gibt es [...]
Ja, eine Verbesserung diesbezüglich ist sicher sinnvoll.
> Es läuft wohl auf ein neues sisisi hinaus. Herbert hatte schon in der
> Mail vom 29.11.2013 18:00 [1] angemerkt:
>
> »SiSiSi als Idee ist geradezu prädestiniert für das, was ihr
> macht: Eine Liste zu erstellen mit gewichteten
> Trennungen. Dagegen ist die Anwendung von patgen irgendwann
> nicht mehr sinnvoll.«
Das ist was gänzlich anderes. Ich nehme einmal an, Du redest über die
Repräsentation der Daten in der Liste. *Wie* diese Daten dann
weiterverarbeitet werden, ist etwas gänzlich anderes.
> Eine Liste brauchten wir natürlich weiterhin zu Entwicklung und
> Überprüfung der Teilwortdaten, aber sie brauchte nicht mehr *jede
> mögliche* grammatikalische Bildung enthalten. Wahrscheinlich treten
> einige Überraschungen und „unkonventionelle“ Wortbildungen auf, aber der
> Datenbestand wäre überschaubarer und besser zu pflegen.
Gerade dieses »unkonventionelle« bereitet mir Kopfzerbrechen. Schau
Dir bitte an, wie »ispell« und Konsorten die Daten repräsentiert:
http://www.j3e.de/ispell/igerman98/dict/
Vielleicht kann man soetwas in dieser Art verwenden. Beachte aber,
daß die von diesen Regeln erzeugte Wortliste *viel* zu viele
Fehlwörter enthält.
Werner
Mehr Informationen über die Mailingliste Trennmuster