[Trennmuster] Datenstruktur

Stephan Hennig mailing_list at arcor.de
Mi Apr 2 18:08:35 CEST 2014


Am 02.04.2014 06:43, schrieb Werner LEMBERG:

>> Es läuft wohl auf ein neues sisisi hinaus. Herbert hatte schon in der
>> Mail vom 29.11.2013 18:00 [1] angemerkt:
>> 
>>      »SiSiSi als Idee ist geradezu prädestiniert für das, was ihr
>>       macht: Eine Liste zu erstellen mit gewichteten
>>       Trennungen. Dagegen ist die Anwendung von patgen irgendwann
>>       nicht mehr sinnvoll.«
> 
> Das ist was gänzlich anderes.  Ich nehme einmal an, Du redest über die
> Repräsentation der Daten in der Liste.  *Wie* diese Daten dann
> weiterverarbeitet werden, ist etwas gänzlich anderes.

Dem schließe ich mich an.  Einen Ersatz für Patgen sehe ich
mittelfristig nicht.  Mit einem automatischen Flexionsformengenerator,
der die fehlenden Trennungen mitliefert, könnte man die Wortliste
allerdings erheblich verkleinern.


>> Wahrscheinlich treten einige Überraschungen und „unkonventionelle“
>> Wortbildungen auf, aber der Datenbestand wäre überschaubarer und
>> besser zu pflegen.
> 
> Gerade dieses »unkonventionelle« bereitet mir Kopfzerbrechen.  Schau
> Dir bitte an, wie »ispell« und Konsorten die Daten repräsentiert:
> 
>   http://www.j3e.de/ispell/igerman98/dict/

Wo findet man dort Dokumentation zum Dateiformat?

Viele Grüße,
Stephan Hennig




Mehr Informationen über die Mailingliste Trennmuster