[Trennmuster] Knappschaftskrankenhaus
Tobias Wendorff
tobias.wendorff at tu-dortmund.de
Di Mai 5 23:59:28 CEST 2015
Hallo,
danke für die Erklärung und Sorry für den Full-Quote.
Mein Script arbeitet genau wie deins, aber ich erlaube Wortfugen. Könntest du das vielleicht anfügen? Mein Python ist etwas eingerostet.
Ich bastle mir da morgen eine weitere Zeile in für Ausgabe, welches bei nicht erfolgreichem Auffinden das ganze durch die normale Patterntrennung schickt.
LG
Tobias
--
Von einem iPhone gesendet und wird daher Fehler enthalten…
Am 05.05.2015 um 10:49 schrieb Guenter Milde <milde at users.sf.net>:
> On 4.05.15, Tobias Wendorff wrote:
>> Hallo,
>
>> habe gerade mal Folgendes probiert:
>> echo "Knappschaftskrankenhaus" | python abgleich_neueintraege.py
>
>> Leider misslingt das Ganze auf voller Linie:
>> # identisch rekonstruiert:
>> # eindeutig abgeleitet
>> # eindeutig abgeleitet (andere Großschreibung)
>> # mehrdeutig abgeleitet
>> # Rest
>> Knappschaftskrankenhaus
>
>> Das ist echt komischen, denn "Knappschaft" und "Krankenhaus" sind
>> in der Wortliste. Mit "Dönerkrankenhaus" und "Dönerskrankenhaus"
>> funktioniert alles wie erwartet.
>
>> Wie kommt das denn?
>
> Da muß man etwas ausholen:
>
> Für den Abgleich wird zunächst die Wortliste "expandiert", d.h. alle
> definierten Zerlegungen von Komposita werden als separate Einträge einer
> temporären Datenbasis hinzugefügt. (Daher dauert es auch immer so lange, bis
> das Skript fertig ist, egal ob nur ein Wort analysiert werden soll oder 20.)
>
> Beispiel: aus "Bezirks==kranken=haus" werden die Einträge
>
> Bezirkskrankenhaus
> krankenhaus
> Bezirks
> kranken
> haus
>
> (aber nicht "Bezirkskranken", da die Wichtung dies verhindert).
>
> Der Abgleich hat die zwei Methoden:
>
> Neuzusammensetzung:
> Test, ob das neue Wort aus 2 in der "expandierten Wortliste"
> vorhandenen Einträgen gebildet werden kann.
>
> Ableitung
> Test, ob das neue Wort durch in der Liste "endungen" definierte
> Modifikationen des Wortendes aus einem vorhandenen Eintrag gebildet werden
> kann.
>
> Die Wortliste enthält zur Zeit keine Zusammensetzung mit "Knappschafts=..."
> und "Knappschafts" ist keine zulässige alleinstehende Form.
> Dahingegen ist "Döners" als Genitiv von Döner durchaus einen Eintrag wert.
>
> Folglich kann Knappschaftskrankenhaus erst automatisch abgeglichen werden,
> wenn der Knappschaftsbeitrag (oder ähnliches) in die Wortliste aufgenommen
> ist (oder andersrum: nach Aufnahme des Knappschaftskrankenhauses kann
> "abgleich_neueintraege" dann auch andere Zusammensetzungen mit
> "Knappschafts=" erkennen und trennen.
>
>
> Sinn dieses Vorgehens ist es, zu viele "false positives" zu vermeiden.
> Nach meiner Erfahrung ist für die Arbeit weniger aufwendig, ein oder zwei
> nicht erkanntes Wort "normal" selber zu trennen, als 100 mehrdeutige
> Analyseergebnisse zu untersuchen und behandeln.
>
> Viele Grüße
>
> Günter
> _______________________________________________
> Trennmuster mailing list
> Trennmuster at dante.de
> https://lists.dante.de/mailman/listinfo/trennmuster
Mehr Informationen über die Mailingliste Trennmuster