[Trennmuster] neuer Arbeitsansatz

Werner LEMBERG wl at gnu.org
Do Nov 10 12:47:47 CET 2016


> [...] Dabei ist mir aufgefallen, dass in der Ausnahmedatei noch
> Fälle sind, die durch einfache Regeln erfaßt werden können:
>
> * s-th wird "schon immer" getrennt. Das läßt sich mit "lookahead"
>   berücksichtigen:
>
>       wort = re.sub(u's-t(?!h)', u'-st', wort)
>
>   und schon ist Äs-thet regelmäßig.
>   (Die Asthe-nie stört hier nicht.)

Hmm.  Was ist mit »Asth-ma«, oder »Isth-mus«?  Der »lookahead« muß
wohl auch auf nachfolgende Vokale testen.

> * Bei der Dreikonsonantenregel, generell die Trennung nach nur 1
>   Buchstaben unterdrücken:
>
>     wort = re.sub(ur'}([aeiouyäöü])-', ur'}\1-.', wort)
>
>   Dann werden auch
>
>      irreligiöse;-2-;i[{rr/rr=r}/r<r]e-.li-giö-se;ir<re-.li-giö-se
>
>   regelmäßig aus irrreligiösen ableitbar.

Ich weiß nicht.  Ist wirklich immer eine Unterdrückung notwendig?  In
Deinem Beispiel gibt's ja das Wort »irre«, aber wer sagt, daß der Teil
vor dem Dreifachkonsonanten stets ein eigenes Wort ist?


    Werner




Mehr Informationen über die Mailingliste Trennmuster