[Trennmuster] Seltsames Verhalten von `abgleich-neueintraege.py`
Keno Wehr
wehr at abgol.de
Do Apr 9 12:06:29 CEST 2020
Am 09.04.20 um 11:32 schrieb Guenter Milde:
>
>> Die Eingabe „Erosionsereignis“ ergibt:
>> ## eindeutig abgeleitet
>> Erosionsereignis;-2-;E·ro-si.ons=er<eig>nis;-4-
>> ## Rest
>> Die Trennung ist zwar korrekt, nicht aber die Feldbelegung.
> Das könnte evt. (ebenso wie Werners Problem mit "Docking") an der mit
> "expand_teilwoerter.py" erstellten "Teilwortliste" liegen.
>
> Da gab es noch einen Fehler mit Wortteilen die in allen Sprachen gleich
> sind, aber aus Wörtern mit Unterschieden extrahiert, z.B.
>
> bäuer;bäu-er
>
> aus:
>
> grossbäuerlich;-2-;-3-;-4-;gross=bäu-er=>lich
> großbäuerlich;groß=bäu-er=>lich
>
>
> Das ist in 629b2f31bf0131033a korrigiert.
Das „Erosionsereignis“ wird jetzt ungetrennt unter „Rest“ angezeigt. Es
liegt wohl daran, dass mit „Erosions“ in der Wortliste nur die Einträge
„Erosionsprozess“/„Erosionsprozeß“ existieren, die jeweils nur für
bestimmte Rechtschreibvarianten gelten.
> Aber weiterhin ist die ganze Sache immer noch eine Heuristik...
Natürlich, aber eine ziemlich gute!
Danke für die viele Mühe und frohe Ostern
Keno
Mehr Informationen über die Mailingliste Trennmuster