[Trennmuster] LightProof (was: Hochleistungsra|ssen)

Stephan Hennig mailing_list at arcor.de
Di Feb 5 19:36:38 CET 2013


Am 03.02.2013 22:38, schrieb Tobias Wendorff:

> Brauchen wir vielleicht einen Algorithmus, der die Wörter in
> ihre Bestandteile zerlegt: Hoch - leitung - s - trassen?

Sicherlich wäre das von Nutzen.  Es gibt einige Implementierungen zur
morphologischen Zerlegung u.a. SiSiSi.  LibreOffice enthält mit
LightProof eine Grammatikprüfung, welche das möglicherweise ebenfalls
kann.  Ich bin mir nicht sicher, ob LightProof auch losgelöst von
LibreOffice verwendet werden kann, in Planung scheint das aber zu sein,
<ULR:http://stackoverflow.com/questions/10509181/can-the-libreoffice-lightproof-grammar-library-be-used-externally>.
 Wer sich mit Python auskennt, kann sich LightProof ja mal ansehen und
hier berichten, ob und was damit möglich ist.

Was ich hilfreich fände, wäre eine automatische Generierung von
flektierten Wortformen, zum Beispiel für Adjektive.  Bei den Wörtern,
deren Flexionsformen einem bestimmten Muster folgen (was man prüfen
kann), könnten wir darauf verzichten, alle Formen in die Wortliste
aufzunehmen.  Die Flexionsformen samt Trennungen müssten vor dem
Patgen-Lauf nur erzeugt und zur Eingabeliste hinzugefügt werden.  Welche
Wörter so behandelt werden können, könnte in einem weiteren Feld
verzeichnet werden.

Viele Grüße,
Stephan Hennig




Mehr Informationen über die Mailingliste Trennmuster