[Trennmuster] Datenstruktur

Werner LEMBERG wl at gnu.org
Mi Apr 2 06:43:56 CEST 2014


> ich habe ja schon ein paarmal über die Datenstruktur gemeckert. Zu
> zahllosen Stämmen gibt es [...]

Ja, eine Verbesserung diesbezüglich ist sicher sinnvoll.

> Es läuft wohl auf ein neues sisisi hinaus. Herbert hatte schon in der
> Mail vom 29.11.2013 18:00 [1] angemerkt:
> 
>      »SiSiSi als Idee ist geradezu prädestiniert für das, was ihr
>       macht: Eine Liste zu erstellen mit gewichteten
>       Trennungen. Dagegen ist die Anwendung von patgen irgendwann
>       nicht mehr sinnvoll.«

Das ist was gänzlich anderes.  Ich nehme einmal an, Du redest über die
Repräsentation der Daten in der Liste.  *Wie* diese Daten dann
weiterverarbeitet werden, ist etwas gänzlich anderes.

> Eine Liste brauchten wir natürlich weiterhin zu Entwicklung und
> Überprüfung der Teilwortdaten, aber sie brauchte nicht mehr *jede
> mögliche* grammatikalische Bildung enthalten. Wahrscheinlich treten
> einige Überraschungen und „unkonventionelle“ Wortbildungen auf, aber der
> Datenbestand wäre überschaubarer und besser zu pflegen.

Gerade dieses »unkonventionelle« bereitet mir Kopfzerbrechen.  Schau
Dir bitte an, wie »ispell« und Konsorten die Daten repräsentiert:

  http://www.j3e.de/ispell/igerman98/dict/

Vielleicht kann man soetwas in dieser Art verwenden.  Beachte aber,
daß die von diesen Regeln erzeugte Wortliste *viel* zu viele
Fehlwörter enthält.


    Werner




Mehr Informationen über die Mailingliste Trennmuster