[Trennmuster] neuer Arbeitsansatz

Guenter Milde milde at users.sf.net
Do Nov 10 15:24:43 CET 2016


On 10.11.16, Werner LEMBERG wrote:

> > [...] Dabei ist mir aufgefallen, dass in der Ausnahmedatei noch
> > Fälle sind, die durch einfache Regeln erfaßt werden können:
> >
> > * s-th wird "schon immer" getrennt. Das läßt sich mit "lookahead"
> >   berücksichtigen:
> >
> >       wort = re.sub(u's-t(?!h)', u'-st', wort)
> >
> >   und schon ist Äs-thet regelmäßig.
> >   (Die Asthe-nie stört hier nicht.)

> Hmm.  Was ist mit »Asth-ma«, oder »Isth-mus«?  Der »lookahead« muß
> wohl auch auf nachfolgende Vokale testen.

Da ist st nicht getrennt und somit paßt es auch nicht auf den regulären
Ausdruck und bleibt wie es ist:

    # >>> print_langform(u'Asth-ma')
    # Asthma;Asth-ma

> > * Bei der Dreikonsonantenregel, generell die Trennung nach nur 1
> >   Buchstaben unterdrücken:
> >
> >     wort = re.sub(ur'}([aeiouyäöü])-', ur'}\1-.', wort)
> >
> >   Dann werden auch
> >
> >      irreligiöse;-2-;i[{rr/rr=r}/r<r]e-.li-giö-se;ir<re-.li-giö-se
> >
> >   regelmäßig aus irrreligiösen ableitbar.

> Ich weiß nicht.  Ist wirklich immer eine Unterdrückung notwendig?  In
> Deinem Beispiel gibt's ja das Wort »irre«, aber wer sagt, daß der Teil
> vor dem Dreifachkonsonanten stets ein eigenes Wort ist?

Die Dreikonsonantenregel geht nur an Wortfugen. Daher sucht der
"Dreikonsonantenregelausdruck" auch nach einem "=" zwischen den
gedroppelten Konsonanten:

    wort = re.sub(ur'([bfglmnprt])\1=\1(?=[aeiouyäöü])',
                  ur'{\1\1/\1\1=\1}', wort)

Und der obige Ausdruck dann nach der schließenden Klammer "}" vor Selbstlaut
und "-". Allerdings zeigt ein Test über die Wortliste, daß dann auch
fälschlich "zu{ck/k-k}e-rig" zu "zu{ck/k-k}e-.rig" würde. Es muß also

    wort = re.sub(ur'(?<==.}[aeiouyäöü])-', ur'-.', wort)
    
bzw. generisch '=' vor irgendwas vor '}' vor Vokal vor '-' heißen:

    '(?<==.}[aeiouyäöü])-'   |-->    '-.'

Dann bleiben noch 74 Einträge der Wortliste, wo das gegenwärtig nicht gilt:

   3109: Abflussystem;-2-;-3-;-4-;-5-;-6-;-7-;Ab<flu{ss/ss=s}y-stem
   3110: Abflussysteme;-2-;-3-;-4-;-5-;-6-;-7-;Ab<flu{ss/ss=s}y-ste-me
   3111: Abflussystemen;-2-;-3-;-4-;-5-;-6-;-7-;Ab<flu{ss/ss=s}y-ste-men
   3112: Abflussystems;-2-;-3-;-4-;-5-;-6-;-7-;Ab<flu{ss/ss=s}y-stems
  50171: Ausschussystem;-2-;-3-;-4-;-5-;-6-;-7-;Aus<schu{ss/ss=s}y-stem
  50172: Ausschussysteme;-2-;-3-;-4-;-5-;-6-;-7-;Aus<schu{ss/ss=s}y-ste-me
  50173: Ausschussystemen;-2-;-3-;-4-;-5-;-6-;-7-;Aus<schu{ss/ss=s}y-ste-men
  50174: Ausschussystems;-2-;-3-;-4-;-5-;-6-;-7-;Aus<schu{ss/ss=s}y-stems
  56576: Basketballiga;-2-;Bas-ket=ba{ll/ll==l}i-ga;-4-
  74901: Blattypen;-2-;Bla{tt/tt=t}y-pen;-4-
  74903: Blattypus;-2-;Bla{tt/tt=t}y-pus;-4-
  76195: Blutgefässystem;-2-;-3-;-4-;-5-;-6-;-7-;Blut=ge<fä{ss/ss==s}y-stem
  76196: Blutgefässysteme;-2-;-3-;-4-;-5-;-6-;-7-;Blut=ge<fä{ss/ss==s}y-ste-me
  ...
  + weitere Zusammensetzugen mit -system
  
Aber ich denke, daß auch bei Ausschussy-
stem, Baketballi-
ga und Blatty-
pen und weiteren ...ssy-
stemen die Unterdrückung angesagt ist.

Viele Grüße
Günter




Mehr Informationen über die Mailingliste Trennmuster