[Trennmuster] neuer Arbeitsansatz
Guenter Milde
milde at users.sf.net
Do Nov 10 15:24:43 CET 2016
On 10.11.16, Werner LEMBERG wrote:
> > [...] Dabei ist mir aufgefallen, dass in der Ausnahmedatei noch
> > Fälle sind, die durch einfache Regeln erfaßt werden können:
> >
> > * s-th wird "schon immer" getrennt. Das läßt sich mit "lookahead"
> > berücksichtigen:
> >
> > wort = re.sub(u's-t(?!h)', u'-st', wort)
> >
> > und schon ist Äs-thet regelmäßig.
> > (Die Asthe-nie stört hier nicht.)
> Hmm. Was ist mit »Asth-ma«, oder »Isth-mus«? Der »lookahead« muß
> wohl auch auf nachfolgende Vokale testen.
Da ist st nicht getrennt und somit paßt es auch nicht auf den regulären
Ausdruck und bleibt wie es ist:
# >>> print_langform(u'Asth-ma')
# Asthma;Asth-ma
> > * Bei der Dreikonsonantenregel, generell die Trennung nach nur 1
> > Buchstaben unterdrücken:
> >
> > wort = re.sub(ur'}([aeiouyäöü])-', ur'}\1-.', wort)
> >
> > Dann werden auch
> >
> > irreligiöse;-2-;i[{rr/rr=r}/r<r]e-.li-giö-se;ir<re-.li-giö-se
> >
> > regelmäßig aus irrreligiösen ableitbar.
> Ich weiß nicht. Ist wirklich immer eine Unterdrückung notwendig? In
> Deinem Beispiel gibt's ja das Wort »irre«, aber wer sagt, daß der Teil
> vor dem Dreifachkonsonanten stets ein eigenes Wort ist?
Die Dreikonsonantenregel geht nur an Wortfugen. Daher sucht der
"Dreikonsonantenregelausdruck" auch nach einem "=" zwischen den
gedroppelten Konsonanten:
wort = re.sub(ur'([bfglmnprt])\1=\1(?=[aeiouyäöü])',
ur'{\1\1/\1\1=\1}', wort)
Und der obige Ausdruck dann nach der schließenden Klammer "}" vor Selbstlaut
und "-". Allerdings zeigt ein Test über die Wortliste, daß dann auch
fälschlich "zu{ck/k-k}e-rig" zu "zu{ck/k-k}e-.rig" würde. Es muß also
wort = re.sub(ur'(?<==.}[aeiouyäöü])-', ur'-.', wort)
bzw. generisch '=' vor irgendwas vor '}' vor Vokal vor '-' heißen:
'(?<==.}[aeiouyäöü])-' |--> '-.'
Dann bleiben noch 74 Einträge der Wortliste, wo das gegenwärtig nicht gilt:
3109: Abflussystem;-2-;-3-;-4-;-5-;-6-;-7-;Ab<flu{ss/ss=s}y-stem
3110: Abflussysteme;-2-;-3-;-4-;-5-;-6-;-7-;Ab<flu{ss/ss=s}y-ste-me
3111: Abflussystemen;-2-;-3-;-4-;-5-;-6-;-7-;Ab<flu{ss/ss=s}y-ste-men
3112: Abflussystems;-2-;-3-;-4-;-5-;-6-;-7-;Ab<flu{ss/ss=s}y-stems
50171: Ausschussystem;-2-;-3-;-4-;-5-;-6-;-7-;Aus<schu{ss/ss=s}y-stem
50172: Ausschussysteme;-2-;-3-;-4-;-5-;-6-;-7-;Aus<schu{ss/ss=s}y-ste-me
50173: Ausschussystemen;-2-;-3-;-4-;-5-;-6-;-7-;Aus<schu{ss/ss=s}y-ste-men
50174: Ausschussystems;-2-;-3-;-4-;-5-;-6-;-7-;Aus<schu{ss/ss=s}y-stems
56576: Basketballiga;-2-;Bas-ket=ba{ll/ll==l}i-ga;-4-
74901: Blattypen;-2-;Bla{tt/tt=t}y-pen;-4-
74903: Blattypus;-2-;Bla{tt/tt=t}y-pus;-4-
76195: Blutgefässystem;-2-;-3-;-4-;-5-;-6-;-7-;Blut=ge<fä{ss/ss==s}y-stem
76196: Blutgefässysteme;-2-;-3-;-4-;-5-;-6-;-7-;Blut=ge<fä{ss/ss==s}y-ste-me
...
+ weitere Zusammensetzugen mit -system
Aber ich denke, daß auch bei Ausschussy-
stem, Baketballi-
ga und Blatty-
pen und weiteren ...ssy-
stemen die Unterdrückung angesagt ist.
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster