[Trennmuster] Knappschaftskrankenhaus
Guenter Milde
milde at users.sf.net
Mi Mai 6 20:37:48 CEST 2015
On 5.05.15, Tobias Wendorff wrote:
> Mein Script arbeitet genau wie deins, aber ich erlaube Wortfugen.
> Könntest du das vielleicht anfügen? Mein Python ist etwas eingerostet.
Was meinst Du mit "erlaube Wortfugen"? Das mache ich doch auch, mit 2
Einschränkungen:
1. Nur eine "neue" Wortfuge pro neuem Wort
D.h. keine Zusammensetzungen aus 3 Wörtern der "expandierten" Liste.
Andererseits enthält dies aber alle Komposita und Teil-Komposita der
"wortliste".
2. Ableitungen (z.B. "en" -> "er" oder "in" -> "innen") nur für in der
"expandierten Liste" vorhandene Wörter.
Grund:
Gedacht ist das Programm für die Sammelverarbeitung einer (großen)
Liste neuer Einträge.
Wichtig ist mir, daß zu viel "Spekulation" vermieden wird und der Aufwand
bei der Durchsicht und Nachbearbeitung gering bleibt.
Im ersten Schritt können die eindeutig zerlegten Wörter geprüft und
eingepflegt werden. Danach werde auch ihre Ableitungen erkannt.
> Ich bastle mir da morgen eine weitere Zeile in für Ausgabe, welches bei
> nicht erfolgreichem Auffinden das ganze durch die normale
> Patterntrennung schickt.
Dazu schicke ich einfach die Liste "Rest" durch "hyphenate_neueintraege.py".
Günter
Mehr Informationen über die Mailingliste Trennmuster