[Trennmuster] Knappschaftskrankenhaus
Tobias Wendorff
tobias.wendorff at tu-dortmund.de
Fr Mai 22 17:31:59 CEST 2015
Am Fr, 22.05.2015, 17:19 schrieb Guenter Milde:
> Meine Erfahrung war, daß das zu viele "falsche Positive" gibt.
> Und eine falsche Trennung ist vieeeel viel schwerer wieder
> herauszufinden/-bekommen, als eingefügt.
Sicher? Wenn ein kompletter Bestandteil vor und nach dem "s" 1:1 in
unserer Liste auftaucht, hätte ich nicht erwartet, dass es noch
zu vielen falschen Trennungen kommen kann. Also wenn "Knappschaft"
und "Krankenhaus" drin ist, steht ja nur ein "s" dazwischen. Schade.
> Bei einer großen Zahl neuer Wörter kann es sich lohnen, zunächst
> "Ableitungen" auszufiltern (abgleich_neueintraege.py --filter-ableitungen)
> und zunächst die "Stammformen" einzupflegen. Dann die Originalliste mit
> `abgleich_neueintraege.py --filter` um bereits vorhandene Einträge
> bereinigen. Nun sollten Ableitungen erkannt und getrennt werden.
Ich steige, ehrlich gesagt, nicht mehr durch die ganzen Tools durch.
Hast Du irgendwo eine Übersicht, welches Tool was kann?
> Eher noch, zu jeder Zeile eine Kommentarzeile mit der verwendeten
> Bildungsregel.
>> Das Script funktioniert bei mir (ganz leeres System) dereit noch nicht.
>
> Es werden dazu die "pattern" Dateien benötigt, welche mit "make" (im
> Wurzelverzeichnis des Repositoriums) erstellt werden können. Siehe die
> Hilfe
> `./hyphenate_neueintraege.py --help` und skripte/python/MANIFEST.
Ja, ich weiß. Aber es kam irgendeine Python-Fehlermeldung. Ich habe das
virtualenv aber inzwischen zerstört, ich gucke mir das in den kommenden
Tagen nochmal an.
Mehr Informationen über die Mailingliste Trennmuster