[Trennmuster] Knappschaftskrankenhaus

Guenter Milde milde at users.sf.net
Di Mai 5 10:49:22 CEST 2015


On  4.05.15, Tobias Wendorff wrote:
> Hallo,

> habe gerade mal Folgendes probiert:
> echo "Knappschaftskrankenhaus" | python abgleich_neueintraege.py

> Leider misslingt das Ganze auf voller Linie:
> # identisch rekonstruiert:
> # eindeutig abgeleitet
> # eindeutig abgeleitet (andere Großschreibung)
> # mehrdeutig abgeleitet
> # Rest
> Knappschaftskrankenhaus

> Das ist echt komischen, denn "Knappschaft" und "Krankenhaus" sind
> in der Wortliste. Mit "Dönerkrankenhaus" und "Dönerskrankenhaus"
> funktioniert alles wie erwartet.

> Wie kommt das denn?

Da muß man etwas ausholen:

Für den Abgleich wird zunächst die Wortliste "expandiert", d.h. alle
definierten Zerlegungen von Komposita werden als separate Einträge einer
temporären Datenbasis hinzugefügt. (Daher dauert es auch immer so lange, bis
das Skript fertig ist, egal ob nur ein Wort analysiert werden soll oder 20.)

Beispiel: aus "Bezirks==kranken=haus" werden die Einträge

  Bezirkskrankenhaus
  krankenhaus
  Bezirks
  kranken
  haus

(aber nicht "Bezirkskranken", da die Wichtung dies verhindert).

Der Abgleich hat die zwei Methoden:

Neuzusammensetzung:
  Test, ob das neue Wort aus 2 in der "expandierten Wortliste"
  vorhandenen Einträgen gebildet werden kann.

Ableitung
  Test, ob das neue Wort durch in der Liste "endungen" definierte
  Modifikationen des Wortendes aus einem vorhandenen Eintrag gebildet werden
  kann.

Die Wortliste enthält zur Zeit keine Zusammensetzung mit "Knappschafts=..."
und "Knappschafts" ist keine zulässige alleinstehende Form.
Dahingegen ist "Döners" als Genitiv von Döner durchaus einen Eintrag wert.

Folglich kann Knappschaftskrankenhaus erst automatisch abgeglichen werden,
wenn der Knappschaftsbeitrag (oder ähnliches) in die Wortliste aufgenommen
ist (oder andersrum: nach Aufnahme des Knappschaftskrankenhauses kann
"abgleich_neueintraege" dann auch andere Zusammensetzungen mit
"Knappschafts=" erkennen und trennen.


Sinn dieses Vorgehens ist es, zu viele "false positives" zu vermeiden.
Nach meiner Erfahrung ist für die Arbeit weniger aufwendig, ein oder zwei
nicht erkanntes Wort "normal" selber zu trennen, als 100 mehrdeutige
Analyseergebnisse zu untersuchen und behandeln.

Viele Grüße

Günter



Mehr Informationen über die Mailingliste Trennmuster