[Trennmuster] Vollständige Trennmusterauszeichnung

Guenter Milde milde at users.sf.net
Fr Apr 27 23:42:02 CEST 2018


On 25.04.18, Werner LEMBERG wrote:

> > Für ein Extraktionsskript, welches aus der "wortliste" eine Datei
> > Trennvorlagen für eine Sprachvariante/einen Sprachstil erstellt ist
> > Kon-t-rol-le dagegen durchaus nützlich.  [...]

> Ja, allerdings müssen die Trennstellen mit passenden Zusatzmarkern
> versehen sein.

Ich denke, wir könne auf Zusatzmarker gut verzichten: Das Kennzeichen von
Alternativtrennstellen ist Konsonantencluster zwischen zwei
Trennmarkierungen. Das läßt sich mit regulären Ausdrücken leicht "erschlagen".

Ich habe jetzt neue Funktionen in wortliste.py, die aus Wörtern mit
Alternativtrennauszeichnung die "modernen" Sprechsilbenregeltrennungen
entfernen:

  >>> fremdwoerter = (u'no-b-le Zy-k-lus Ma-g-net Fe-b-ru-ar '
  ...                 u'Hy-d-rant Ar-th-ri-tis')
  >>> for wort in fremdwoerter.split():
  ...     print wort, '->', fremdwortsilben(wort)
  no-b-le -> no-ble
  Zy-k-lus -> Zy-klus
  Ma-g-net -> Ma-gnet
  Fe-b-ru-ar -> Fe-bru-ar
  Hy-d-rant -> Hy-drant
  Ar-th-ri-tis -> Ar-thri-tis

und 

  >>> blasse = (u'hi-n<auf he-r<an da-r<um Chry-s<an-the-me Hek-t<ar '
  ...           u'Heliko<p-ter in-te-r>es-sant Li-n<oleum Pä-d<ago-gik')
  >>> for wort in blasse.split():
  ...     print wort, '->', etymologisch(wort)
  hi-n<auf -> hin<auf
  he-r<an -> her<an
  da-r<um -> dar<um
  Chry-s<an-the-me -> Chrys<an-the-me
  Hek-t<ar -> Hekt<ar
  Heliko<p-ter -> Heliko<pter
  in-te-r>es-sant -> in-ter>es-sant
  Li-n<oleum -> Lin<oleum
  Pä-d<ago-gik -> Päd<ago-gik

Mein Plan wäre, diese Funktionen in ableitung1901() zu integrieren, so daß
im Kurzformat der Eintrag

  da-r<um
  
zum Langeintrag

  darum;-2-;da-r<um;dar-um
  
wird. 

Damit hätten wir

a) eine leichte Möglichkeit die neue Auszeichnung einzuführen (einfach im
   Kurzformat ändern und dann das Langformat generieren).
   
b) eine gute Kontrolle der Transformationsfunktion: nach der Wandlung
   kann getestet werden, ob im Feld de-1901 noch "falsche" Silben
   ohne Vokal übrig sind.

Außerdem möchte ich in sprachauszug.py die Spezifikation von Trennstilen
ermöglichen, so dass dann "modern" oder "traditionell" gewählt werden kann.
(Wahlweise kombiniert mit "Notentext".)

Viele Grüße

Günter



Mehr Informationen über die Mailingliste Trennmuster