[Trennmuster] Trennstellenunterdrückung

Guenter Milde milde at users.sf.net
So Mai 13 18:11:44 CEST 2018


On 13.05.18, Werner LEMBERG wrote:

> >> Funktion 1: Markierung der bevorzugten Trennstelle bei
> >>             einbuchstabigen Trennungen, falls vom Standard
> >>             (abweichend).
> >>
> >> Funktion 2: Markierung von ungünstigen Trennstellen wie bisher.
> >
> > [...] Wir könnten also drei Kategorien von ungünstig unterscheiden:
> >
> > (a) Semantisch irreführend: Grün- derin- iative, Adria- no
> >
> > (b) Phonetisch irreführend: entkoffei- nieren, Egoi- sten, Judai-
> >     stik
> >
> > (c) Nottrennung: Teltow- er, Orle- ans, loy- al
> >
> > (d) Dann gab es noch die neue Trennkategorie "nur im Notentext"
> >     (A-braham)
> >
> > Wollen wir diese Trennungen unterscheiden, wenn ja, wann, warum und
> > wie?

> Eine gute Frage.  (d) verdient wohl ein eigenes Zeichen.

> Diese Kategorien allerdings helfen mir nicht bei meinem konkreten
> Problem.  Ich denke nämlich nicht an Wortanalyse, sondern an Muster.
> Ein Beispiel für AR:

>   Athe-i-sten
>   Ego-i-sten
>   ...

> Zur Fehlersuche wäre es praktisch, gezielt die Muster

>   Athe-isten
>   Ego-isten

> oder

>   Athei-sten
>   Egoi-sten

> aktivieren zu können.  Es sind also genau die einbuchstabigen
> Trennstellen, zwischen denen ich wechseln möchte.

Also statt der "normalen" Variante von keine_einzelvokale(), die bei
"Unentschieden" die erste Trennung unterdrückt:

  re.sub(u'-[.]*([aeiouyäöü]-[^.])', u'\\1', wort)

eine, die gezielt (und auch bei "punktierten" Trennungen) die erste oder
zweite weglässt:

  re.sub(u'(-[.]*[aeiouyäöü]-[.]*)', u'-\\1', wort)

bzw.

  re.sub(u'(-[.]*[aeiouyäöü]-[.]*)', u'\\1-', wort)


> Um das zu realisieren, sollte in Fällen, wo ein regulärer Ausdruck
> nicht ausreicht, ein eigener Marker verwendet werden:

>   An<woh-ner=in<.i·ti-a-ti-ve

Achtung: Hier haben wir es nicht mit einem selbstdefinierten Trennstil zu
tun, der aus ästhetischen Gründen nur eine von zwei gleichberechtigt
zulässigen Trennstellen auswählt. 

Auch wenn ein Vokal zwischen den Markern steht, ist das ein Fall der
Wahltrennung "morphologisch" vs. "Sprechsilbenregel" nach § 113 analog zu

  ana<s-ta-tisch
  Prä-te-r<ita

in Verbindung mit § 107 E1: "Einzelne Vokalbuchstaben am Wortanfang oder
-ende werden nicht ab- getrennt, auch nicht bei Komposita"
Die meisten dieser Fälle kommen, auch wenn Vokale betroffen sind, ohne
"Punktierung" aus:

   Pä-d<e-rast
   Di-a<g-no-se

Hier erfolgt die Auswahl mit verblasst(wort, style) unter Unterscheidung von
Haupt- und Nebentrennstelle. Dabei ist es egal, 

* ob die Haupttrennstelle der Nebentrennstelle folgt oder andersrum, sowie
* ob eine Trennstelle als ungünstig markiert ist:

    if style == "modern": # Sprechsilbenregel
        wort = re.sub(u'[<>=]+[.]*(.[-.]+)', u'\\1', wort)
        wort = re.sub(u'([-.]+.)[<>=]+[.]*', u'\\1', wort)
    else: # etymologisch
        wort = re.sub(u'([<>=]+[.]*.)[-.]+', u'\\1', wort)
        wort = re.sub(u'[-.]+(.[<>=]+)', u'\\1', wort)
    return wort




> Wir haben derzeit eine Handvoll solcher Fälle; der Aufwand wäre also
> sehr überschaubar – wahrscheinlicher werden's ein paar mehr werden.

Die Kosten sind weniger im Editieraufwand als im "Verbraten" eines separaten
Trennzeichens und



> > Zum Testen würde es wahrscheinlich nicht schaden, wenn alle
> > irreführenden und Nottrennungen zugelassen werden, oder gibt es
> > einen Test, der zwischen diesen unterscheiden muss?

> Ist nicht notwendig meiner Meinung nach.

> > Für klassische Nottrennungen könnten wir den einfachen Punkt nehmen
> > (loy-al, Tel-tow.er, axi.al), denn es gibt m.E. keine Nottrennung an
> > Fugen.  "Irreführende Nottrennungen" wie »Rad==au-.ßen=sei-te« (K80
> > Diphthong am Anfang nur im Notfall abtrennen) können IMO ohne
> > Probleme weiter mit »-.« gekennzeichnet werden.

> Ja.

> > Die "phonetische Irreführung" ist in den meisten Fällen auf die alte
> > "trenne-nie-st"-Regel und die Endung -ist… zurückzuführen.

> Nicht nur.  Ich behaupte mal, daß die NR durch das Erlauben von viel
> mehr Trennstellen ein gutes Scherflein an Irreführung beiträgt.  Das
> wird unsere derzeitige Markierungskampagne bald zeigen :-)

> > Wir könnten Judaistik mit der Auszeichnung »Ju-da<i-stik«
> > "erschlagen", wenn wir Kenos Idee folgen, daß eine Suffixtrennstelle
> > die alte interne "nimm die zweite" Regel überstimmt.

> Hmm.  Dann explodiert aber die Liste an Präfixen. …

Sorry, ich habe mich vertippt, es sollte »Ju-da>i-stik« sein.

> > Dann müssten es aber auch »La-sal-le<a-ner« sein. Und bei
> > »Ra-e-li<a-ner« wollen wir ja Ra-elia-ner behalten :-(

> Eben.  Daher lieber ein eigenes Zeichen für die Fälle, wo ...

Also weiterhin der nachgestellte Punkt für "semantische"

  Ab<dampf=en<.er-gie
  Ju-gend=buch=au-to-.rin
  Ra-che=ter-.zett

*und* "phonetische"
 
  Ab<fra-ge=in-.ter<vall
  Ju-da>i-.stik
  Ra-e-.li

Ungünstikeit?




> ... der reguläre Ausdruck

>   \w [<>=-]+ (\.+) \w [<>=-]+ (\.+) \w

> auftreten würde (ohne Leerzeichen natürlich), wobei die erste Gruppe
> eine andere Funktion als die zweite hat. 

Mir ist schon wieder nicht klar, was dann die andere Funktion sein soll.
Auch bei Trennzeichen mit Abstand eins hat der Punkt immer die Bedeutung
"ungünstig":

   Bür-ger=in<.i-ti-a-ti-ve   # semantisch ungünst.: Bürgerin-itiative
   Adri-a-.na		      # semantisch ungünst.

   Da-da-i-.sten 	      # phonetisch ungünst.  Dadai - sten
   Ego-i-.sten		      # "	   "
   ent<kof-fe-i-.niert	      # "	   "	     entkoffei - niert
   Li-po-i-.de		      # "	   "	     Lipoi - de
   
   adri-.a-ti-sche            # Nottrennung im Fremdwort-Vokalcluster
   Pu-.e-blo		      # "	    "  "		     
   



> Mein Vorschlag ist »·«, das
> wir auch für den Fall (d) verwenden könnten – wir brauchen ja keine
> semantisch irreführenden Trennungen für Gesangstexte markieren, daher
> gäbe es keinen Konflikt.

Ich sehe hier einen großen Konflikt: in engen Spalten können
"irreführende" und Nottrennungen erlaubt werden, Notentexttrenner aber
nicht.

Viele Grüße

Günter


PS: (weil eigentlich ein anderes Problem)

> > Kritisch sind die "semantisch irreführenden" Trennstellen: sie sind
> > immer im Konflikt mit legalen Trennstellen in anderen
> > Zusammensetzungen und machen es daher patgen besonders schwer.

> Also patgen schafft's bis jetzt :-)

Das Problem ist auch weniger, ob patgen es "schafft", als vielmehr wie "gut"
die Trennmuster im Sinne der korrekten Behandlung nicht explizit trainierter
Wörter sind. Die dazu nötige Generatlisierung wird von den "semantischen
Unterdrückern" doch empfindlich gestört.



Mehr Informationen über die Mailingliste Trennmuster