[Trennmuster] neuer Arbeitsansatz

Guenter Milde milde at users.sf.net
Mi Nov 9 22:16:27 CET 2016


On  6.11.16, Werner LEMBERG wrote:

> >>   süß=sau-.er;süß=sau-.er;süss=sau-.er;süss=sau-.er;sü{ss/ss=s}au-er

> Nicht nur ß-Fälle, sondern alles, was algorithmisch ableitbar ist,
> also auch Dreifachkonsonanten u.ä.


Ich bin am Basteln einer Langform <-> Kurzform Transformation 
skripte/python/edit_tools/

Es soll dann auch einen "Filter" geben, der Zeilen der Standardeingabe
wandelt und ausspuckt, so daß

   python machsneu.py < alte-liste.txt > neue-liste.txt
   
und

   python machsneu.py -r < neue-liste.txt > neue-liste-im-alten-format.txt

gehen. (Gesucht: schöner Name für "machsneu.py")


Dabei ist mir aufgefallen, dass in der Ausnahmedatei noch Fälle sind, die
durch einfache Regeln erfaßt werden können:

* s-th wird "schon immer" getrennt. Das läßt sich mit "lookahead"
  berücksichtigen:
  
      wort = re.sub(u's-t(?!h)', u'-st', wort)

  und schon ist Äs-thet regelmäßig.
  (Die Asthe-nie stört hier nicht.)

* Bei der Dreikonsonantenregel, generell die Trennung nach nur 1
  Buchstaben unterdrücken:

    wort = re.sub(ur'}([aeiouyäöü])-', ur'}\1-.', wort)

  Dann werden auch 
  
     irreligiöse;-2-;i[{rr/rr=r}/r<r]e-.li-giö-se;ir<re-.li-giö-se

  regelmäßig aus irrreligiösen ableitbar.


Viele Grüße

Günter



Mehr Informationen über die Mailingliste Trennmuster