[Trennmuster] Knappschaftskrankenhaus

Tobias Wendorff tobias.wendorff at tu-dortmund.de
Fr Mai 22 17:31:59 CEST 2015


Am Fr, 22.05.2015, 17:19 schrieb Guenter Milde:
> Meine Erfahrung war, daß das zu viele "falsche Positive" gibt.
> Und eine falsche Trennung ist vieeeel viel schwerer wieder
> herauszufinden/-bekommen, als eingefügt.

Sicher? Wenn ein kompletter Bestandteil vor und nach dem "s" 1:1 in
unserer Liste auftaucht, hätte ich nicht erwartet, dass es noch
zu vielen falschen Trennungen kommen kann. Also wenn "Knappschaft"
und "Krankenhaus" drin ist, steht ja nur ein "s" dazwischen. Schade.

> Bei einer großen Zahl neuer Wörter kann es sich lohnen, zunächst
> "Ableitungen" auszufiltern (abgleich_neueintraege.py --filter-ableitungen)
> und zunächst die "Stammformen" einzupflegen. Dann die Originalliste mit
> `abgleich_neueintraege.py --filter` um bereits vorhandene Einträge
> bereinigen. Nun sollten Ableitungen erkannt und getrennt werden.

Ich steige, ehrlich gesagt, nicht mehr durch die ganzen Tools durch.
Hast Du irgendwo eine Übersicht, welches Tool was kann?

> Eher noch, zu jeder Zeile eine Kommentarzeile mit der verwendeten
> Bildungsregel.

>> Das Script funktioniert bei mir (ganz leeres System) dereit noch nicht.
>
> Es werden dazu die "pattern" Dateien benötigt, welche mit "make" (im
> Wurzelverzeichnis des Repositoriums) erstellt werden können. Siehe die
> Hilfe
> `./hyphenate_neueintraege.py --help` und skripte/python/MANIFEST.

Ja, ich weiß. Aber es kam irgendeine Python-Fehlermeldung. Ich habe das
virtualenv aber inzwischen zerstört, ich gucke mir das in den kommenden
Tagen nochmal an.




Mehr Informationen über die Mailingliste Trennmuster