[Trennmuster] Knappschaftskrankenhaus
Guenter Milde
milde at users.sf.net
Di Mai 5 10:49:22 CEST 2015
On 4.05.15, Tobias Wendorff wrote:
> Hallo,
> habe gerade mal Folgendes probiert:
> echo "Knappschaftskrankenhaus" | python abgleich_neueintraege.py
> Leider misslingt das Ganze auf voller Linie:
> # identisch rekonstruiert:
> # eindeutig abgeleitet
> # eindeutig abgeleitet (andere Großschreibung)
> # mehrdeutig abgeleitet
> # Rest
> Knappschaftskrankenhaus
> Das ist echt komischen, denn "Knappschaft" und "Krankenhaus" sind
> in der Wortliste. Mit "Dönerkrankenhaus" und "Dönerskrankenhaus"
> funktioniert alles wie erwartet.
> Wie kommt das denn?
Da muß man etwas ausholen:
Für den Abgleich wird zunächst die Wortliste "expandiert", d.h. alle
definierten Zerlegungen von Komposita werden als separate Einträge einer
temporären Datenbasis hinzugefügt. (Daher dauert es auch immer so lange, bis
das Skript fertig ist, egal ob nur ein Wort analysiert werden soll oder 20.)
Beispiel: aus "Bezirks==kranken=haus" werden die Einträge
Bezirkskrankenhaus
krankenhaus
Bezirks
kranken
haus
(aber nicht "Bezirkskranken", da die Wichtung dies verhindert).
Der Abgleich hat die zwei Methoden:
Neuzusammensetzung:
Test, ob das neue Wort aus 2 in der "expandierten Wortliste"
vorhandenen Einträgen gebildet werden kann.
Ableitung
Test, ob das neue Wort durch in der Liste "endungen" definierte
Modifikationen des Wortendes aus einem vorhandenen Eintrag gebildet werden
kann.
Die Wortliste enthält zur Zeit keine Zusammensetzung mit "Knappschafts=..."
und "Knappschafts" ist keine zulässige alleinstehende Form.
Dahingegen ist "Döners" als Genitiv von Döner durchaus einen Eintrag wert.
Folglich kann Knappschaftskrankenhaus erst automatisch abgeglichen werden,
wenn der Knappschaftsbeitrag (oder ähnliches) in die Wortliste aufgenommen
ist (oder andersrum: nach Aufnahme des Knappschaftskrankenhauses kann
"abgleich_neueintraege" dann auch andere Zusammensetzungen mit
"Knappschafts=" erkennen und trennen.
Sinn dieses Vorgehens ist es, zu viele "false positives" zu vermeiden.
Nach meiner Erfahrung ist für die Arbeit weniger aufwendig, ein oder zwei
nicht erkanntes Wort "normal" selber zu trennen, als 100 mehrdeutige
Analyseergebnisse zu untersuchen und behandeln.
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster