[Trennmuster] neuer Arbeitsansatz
Guenter Milde
milde at users.sf.net
Mi Nov 9 22:16:27 CET 2016
On 6.11.16, Werner LEMBERG wrote:
> >> süß=sau-.er;süß=sau-.er;süss=sau-.er;süss=sau-.er;sü{ss/ss=s}au-er
> Nicht nur ß-Fälle, sondern alles, was algorithmisch ableitbar ist,
> also auch Dreifachkonsonanten u.ä.
Ich bin am Basteln einer Langform <-> Kurzform Transformation
skripte/python/edit_tools/
Es soll dann auch einen "Filter" geben, der Zeilen der Standardeingabe
wandelt und ausspuckt, so daß
python machsneu.py < alte-liste.txt > neue-liste.txt
und
python machsneu.py -r < neue-liste.txt > neue-liste-im-alten-format.txt
gehen. (Gesucht: schöner Name für "machsneu.py")
Dabei ist mir aufgefallen, dass in der Ausnahmedatei noch Fälle sind, die
durch einfache Regeln erfaßt werden können:
* s-th wird "schon immer" getrennt. Das läßt sich mit "lookahead"
berücksichtigen:
wort = re.sub(u's-t(?!h)', u'-st', wort)
und schon ist Äs-thet regelmäßig.
(Die Asthe-nie stört hier nicht.)
* Bei der Dreikonsonantenregel, generell die Trennung nach nur 1
Buchstaben unterdrücken:
wort = re.sub(ur'}([aeiouyäöü])-', ur'}\1-.', wort)
Dann werden auch
irreligiöse;-2-;i[{rr/rr=r}/r<r]e-.li-giö-se;ir<re-.li-giö-se
regelmäßig aus irrreligiösen ableitbar.
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster