[Trennmuster] Vollständige Trennmusterauszeichnung
Werner LEMBERG
wl at gnu.org
Sa Apr 28 00:02:06 CEST 2018
> Ich habe jetzt neue Funktionen in wortliste.py, die aus Wörtern mit
> Alternativtrennauszeichnung die "modernen"
> Sprechsilbenregeltrennungen entfernen:
>
> >>> fremdwoerter = (u'no-b-le Zy-k-lus Ma-g-net Fe-b-ru-ar '
> ... u'Hy-d-rant Ar-th-ri-tis')
> >>> for wort in fremdwoerter.split():
> ... print wort, '->', fremdwortsilben(wort)
> no-b-le -> no-ble
> Zy-k-lus -> Zy-klus
> Ma-g-net -> Ma-gnet
> Fe-b-ru-ar -> Fe-bru-ar
> Hy-d-rant -> Hy-drant
> Ar-th-ri-tis -> Ar-thri-tis
>
> und
>
> >>> blasse = (u'hi-n<auf he-r<an da-r<um Chry-s<an-the-me Hek-t<ar '
> ... u'Heliko<p-ter in-te-r>es-sant Li-n<oleum Pä-d<ago-gik')
> >>> for wort in blasse.split():
> ... print wort, '->', etymologisch(wort)
> hi-n<auf -> hin<auf
> he-r<an -> her<an
> da-r<um -> dar<um
> Chry-s<an-the-me -> Chrys<an-the-me
> Hek-t<ar -> Hekt<ar
> Heliko<p-ter -> Heliko<pter
> in-te-r>es-sant -> in-ter>es-sant
> Li-n<oleum -> Lin<oleum
> Pä-d<ago-gik -> Päd<ago-gik
Schaut gut aus. Frage: Geht's auch in die andere Richtung? Und
werden damit tatsächlich alle neu hinzugekommenen Trennstellen erfaßt?
> Mein Plan wäre, diese Funktionen in ableitung1901() zu integrieren,
> so daß im Kurzformat der Eintrag
>
> da-r<um
>
> zum Langeintrag
>
> darum;-2-;da-r<um;dar-um
>
> wird.
Das wäre wohl eher
darum;-2-;dar<um;da-r<um
:-)
> Damit hätten wir
>
> a) eine leichte Möglichkeit die neue Auszeichnung einzuführen
> (einfach im Kurzformat ändern und dann das Langformat
> generieren).
>
> b) eine gute Kontrolle der Transformationsfunktion: nach der
> Wandlung kann getestet werden, ob im Feld de-1901 noch "falsche"
> Silben ohne Vokal übrig sind.
>
> Außerdem möchte ich in sprachauszug.py die Spezifikation von
> Trennstilen ermöglichen, so dass dann "modern" oder "traditionell"
> gewählt werden kann. (Wahlweise kombiniert mit "Notentext".)
OK, probieren wir das aus.
Werner
Mehr Informationen über die Mailingliste Trennmuster