[Trennmuster] Treuhandliegenschaftsgenossenschaft
Tobias Wendorff
tobias.wendorff at tu-dortmund.de
So Feb 24 20:15:29 CET 2013
Am 24.02.2013 19:54, schrieb Stephan Hennig:
> Am 24.02.2013 19:30, schrieb Tobias Wendorff:
>
>> Aber im Endeffekt ließe sich sowas doch recht einfach implementieren...
>> Es müsste doch eigentlich nur überprüft werden, ob ein Wortteil bereits
>> in der Liste ist und wenn ja, sollte die Trennung angewendet werden.
>>
>> Treuhandliegenschaftsgenossenschaft, zerlegt in Wörter und Wortteile:
>>
>> Treuhand
>> liegenschaft
>> s
>> genosse
>> n
>> schaft
>> en
>
> Morphologische Zerlegung ... recht einfach implementieren ... hmm ...
Es muss ja nicht linguistisch, sondern nur logisch korrekt sein.
Ich habe kürzlich mal einen Artikel zur Indizierung von Wörtern
gelesen, dort wurde u.a. mit Vokal-Konsonant-Abfolgen, Wörterbüchern,
n-Grammen und Stemming für die deutsche Sprache experimentiert.
> Wenn es so etwas gibt (frei), dann könnte man gleich eine
> LuaTeX-Anbindung dafür schreiben und dort den Trennalgorithmus komplett
> austauschen. Denkbar ist das.
Hunspell (aspell sicher auch) könnte da helfen. IMHO funktioniert es
sogar bei kritischen Wörtern, nehmen wir den Kindersatz:
Kind
er
satz
ersatz
Spätestens hier könnte dann die Software auch auf Überschneidungen
hinweisen, da es sowohl "Kinder", als auch "Ersatz" im Wort
"Kindersatz" gibt.
Haben wir eine Wortliste, mit Singular und Plural im Nominativ,
gegebenenfalls noch im Akkusativ?
LG
Tobias
Mehr Informationen über die Mailingliste Trennmuster