[Trennmuster] Knappschaftskrankenhaus

Guenter Milde milde at users.sf.net
Fr Mai 22 17:19:20 CEST 2015


On  6.05.15, Tobias Wendorff wrote:
> Am Mi, 6.05.2015, 20:37 schrieb Guenter Milde:
> >
> > Was meinst Du mit "erlaube Wortfugen"? Das mache ich doch auch, mit 2
> > Einschränkungen:

> Ich meinte das Fugen-s :)

Meine Erfahrung war, daß das zu viele "falsche Positive" gibt.
Und eine falsche Trennung ist vieeeel viel schwerer wieder
herauszufinden/-bekommen, als eingefügt.

Wenn einmal eine Zusammensetzung mit Fugen-s vorhanden ist, klappt es ja
automatisch (nach der Aufnahme von "Knappschafts=krankenhaus" ist
"Knappschafts" in der expandierten Liste und "Knappschaftskrankenhäuser"
wird korrekt erkannt.

Bei einer großen Zahl neuer Wörter kann es sich lohnen, zunächst
"Ableitungen" auszufiltern (abgleich_neueintraege.py --filter-ableitungen)
und zunächst die "Stammformen" einzupflegen. Dann die Originalliste mit
`abgleich_neueintraege.py --filter` um bereits vorhandene Einträge
bereinigen. Nun sollten Ableitungen erkannt und getrennt werden.

> > Wichtig ist mir, daß zu viel "Spekulation" vermieden wird und der
> > Aufwand bei der Durchsicht und Nachbearbeitung gering bleibt.

> Das ist nachvollziehbar. Aber du könntest die Wahrscheinlichkeit
> vielleicht angeben. Komplett ableitbar: 100%, Fugenlaut: 90% usw.

Eher noch, zu jeder Zeile eine Kommentarzeile mit der verwendeten
Bildungsregel.
Mit "prepare-patch" werden die Kommentarzeilen dann wieder ausgefiltert.

> > Dazu schicke ich einfach die Liste "Rest" durch
> > "hyphenate_neueintraege.py".

> Das Script funktioniert bei mir (ganz leeres System) dereit noch nicht.

Es werden dazu die "pattern" Dateien benötigt, welche mit "make" (im
Wurzelverzeichnis des Repositoriums) erstellt werden können. Siehe die Hilfe
`./hyphenate_neueintraege.py --help` und skripte/python/MANIFEST.

Günter



Mehr Informationen über die Mailingliste Trennmuster