[Trennmuster] Seltsames Verhalten von `abgleich-neueintraege.py`

Keno Wehr wehr at abgol.de
Do Apr 9 12:06:29 CEST 2020


Am 09.04.20 um 11:32 schrieb Guenter Milde:
>
>> Die Eingabe „Erosionsereignis“ ergibt:
>> ## eindeutig abgeleitet
>> Erosionsereignis;-2-;E·ro-si.ons=er<eig>nis;-4-
>> ## Rest
>> Die Trennung ist zwar korrekt, nicht aber die Feldbelegung.
> Das könnte evt. (ebenso wie Werners Problem mit "Docking") an der mit
> "expand_teilwoerter.py" erstellten "Teilwortliste" liegen.
>
> Da gab es noch einen Fehler mit Wortteilen die in allen Sprachen gleich
> sind, aber aus Wörtern mit Unterschieden extrahiert, z.B.
>
>    bäuer;bäu-er
>
> aus:
>
>    grossbäuerlich;-2-;-3-;-4-;gross=bäu-er=>lich
>    großbäuerlich;groß=bäu-er=>lich
>
>
> Das ist in 629b2f31bf0131033a korrigiert.

Das „Erosionsereignis“ wird jetzt ungetrennt unter „Rest“ angezeigt. Es 
liegt wohl daran, dass mit „Erosions“ in der Wortliste nur die Einträge 
„Erosionsprozess“/„Erosionsprozeß“ existieren, die jeweils nur für 
bestimmte Rechtschreibvarianten gelten.

> Aber weiterhin ist die ganze Sache immer noch eine Heuristik...

Natürlich, aber eine ziemlich gute!
Danke für die viele Mühe und frohe Ostern

Keno



Mehr Informationen über die Mailingliste Trennmuster