[Trennmuster] Vollständige Trennmusterauszeichnung
Guenter Milde
milde at users.sf.net
So Apr 29 09:26:01 CEST 2018
On 28.04.18, Werner LEMBERG wrote:
> > Ich habe jetzt neue Funktionen in wortliste.py, die aus Wörtern mit
> > Alternativtrennauszeichnung die "modernen"
> > Sprechsilbenregeltrennungen entfernen:
...
> Schaut gut aus. Frage: Geht's auch in die andere Richtung?
Kommt drauf an:
* den "modernen" Trennstil zu etablieren ist relativ simpel (kommt noch),
* die zusätzlichen Alternativtrennungen zu markieren wird wohl eher
Handarbeit, bzw. auf jeden Fall mit sorgfältiger Durchsicht. Das ist ja
aber auch eine einmalige Aktion.
> Und werden damit tatsächlich alle neu hinzugekommenen Trennstellen
> erfaßt?
Nicht mehr. Ein Test mit umformatierung.py zeigte ein Problem:
# wegen Übergeneralisierung nicht möglich:
# Ap-ri-kose -> Apri-kose
# ig-no-rie-ren -> igno-rie-ren
Sonst wären die entsprechenden Trennstellen auch in deutschen Wörtern weg:
# Seg-ler -> Segler
# bast-le -> bastle
# Ad-ler -> Adler
Wir können hier verschiedenstes machen:
* Weiter "Apri-kose" auszeichnen,
* A-p-ri-kose auszeichnen und die Trennung nach dem A rausfiltern,
* Fremdwörter anhand des Kommentars erkennen.
> > Mein Plan wäre, diese Funktionen in ableitung1901() zu integrieren,
...
> > Damit hätten wir
> >
> > a) eine leichte Möglichkeit die neue Auszeichnung einzuführen
> > (einfach im Kurzformat ändern und dann das Langformat
> > generieren).
> >
> > b) eine gute Kontrolle der Transformationsfunktion: nach der
> > Wandlung kann getestet werden, ob im Feld de-1901 noch "falsche"
> > Silben ohne Vokal übrig sind.
> >
> > Außerdem möchte ich in sprachauszug.py die Spezifikation von
> > Trennstilen ermöglichen, so dass dann "modern" oder "traditionell"
> > gewählt werden kann. (Wahlweise kombiniert mit "Notentext".)
> OK, probieren wir das aus.
Den ersten Test hab ich gemacht (siehe oben).
Nun ist die Frage, ob Du erst ein Extraktionsskript basteln willst, oder
schon erste Alternativtrennstellen in die "wortliste" sollen.
Viele Grüße,
Günter
Mehr Informationen über die Mailingliste Trennmuster