[Trennmuster] Trennstellenunterdrückung

Guenter Milde milde at users.sf.net
Do Mai 17 17:43:18 CEST 2018


On 17.05.18, Werner LEMBERG wrote:

...

> > ... was ist dann die "andere" Stelle bei z.B. ger<i-a-t-ri-sche,
> > Bi-n<o-kel, o·pi-o-i-.de oder Di-a<g-no-se?

> Ja, das Aufdröseln von »gn« und Freunden macht's recht unübersichtlich
> – und fehleranfällig meiner Meinung nach.  Seufz.  Das sind die
> Schattenseiten der derzeitigen Kampagne.  Hat jemand von Euch schon
> Trennmuster erzeugt und dort Fehler gesucht? 

Nein, das ist nicht mein Spezialgebiet. Aber ich habe Eingangsdaten für
patgen erzeugt (mit sprachauszug.py) und werde das noch weiter ausbauen
und testen.

> Wie kann man z.B. das Wort »ger<i-a-t-ri-sche« zähmen?

> Im Besonderen: funktioniert die Fremdwort-Automatik, sodaß das »t« ans
> »r« angebunden wird, wenn man etymologisch trennen will?

Ja. Siehe fremdwortsilben() in wortliste.py.

fremdwortsilben(wort): 
         ger<i-a-t-ri-sche -> ger<i-a-tri-sche
fremdwortsilben(wort, 'modern'): 
         ger<i-a-t-ri-sche -> ger<i-at-ri-sche

Kommplett "wie früher" wird es durch Wahl des "etymologischen" Trennstils
in sprachauszug.py:

# >>> etymologisch(u'ger<i-a-t-ri-sche')
# u'ger<ia-tri-sche'

Aber wir können auch anders:

# >>> modern(u'ger<i-a-t-ri-sche')
# u'geri-at-ri-sche'



>  Und ist nicht eigentlich
> »ger« als verblaßte Vorsilbe zu betrachten?  Dann hätten wir
> »ge-r-i-a-t-ri-sche«! 

Nein. Wegen der verdunkelten Vorsilbe ändert sich die Auszeichnung in der
"wortliste" für NR:

   ger<ia…  -->  ger<i-a…
   
Es gibt eine alternative Wahltrennstelle aber die Trennung an der
Morphemgrenze ist weiterhin eine Trennung an der Morphemgrenze also mit
"<" auszuzeichnen.


> Das müßte dann reduziert werden nach

>   . Sprechsilben, mit »tr« zusammen: ge-ri-a-tri-sche

>   . nur Sprechsilben: ge-ri-at-ri-sche

>   . etymologisch: ger-ia-tri-sche

> Geht das alles *zuverlässig* mittels Filter?  Reicht die derzeitige
> Auszeichnung dafür aus?

Soweit ich es sehe, ja. Zumindest für die Fälle, die bisher mit den neuen
Trennstellen ausgezeichnet sind.

Es gibt Grenzfälle: Bei Wörtern mit den Präfixe tran(s) und ab(s) ist
zuweilen bereits im Latin das 's' an die Silbe des Stamms angeschlossen.

Strenggenommen haben wir also bei abstrakt und Abszess die Trennstelle nicht
an der Morphemgrenze: 

  (AR) ab-strakt  aber abs + trahere
  Ab-szess        aber abs + cedere

Nach den Regeln der NR dürfte es die "alten" lateinischen Trennungen gar
nicht mehr geben -- dennoch gilt laut Duden ab|s|trakt (nach anderen
Quellen sogar ab|s|t|rakt) und Ab|s|zess. 

Solche Abweichungen modernern Wörterbucheinträge vom Buchstaben der Regelung
lassen sich nicht so einfach filtern.


Die Duden-Trennungen lassen sich herleiten, wenn man die Morphologie
als ab + s + … ansetzt, damit zum Erhalt der lateinischen Trennung die
Ausnahmeregel §113 (Trennung nach Wortbestandteilen) greift. (Die
Ausnahmeregel 112 gilt nur für Verbindungen aus Buchstaben für einen
Konsonanten + l, n oder r.)


Zur Zeit ist die Auszeichnung inkonsequent

    abstrakt;-2-;ab-strakt;abs-trakt # < lat. abs + trahere, aber mit ſ

    Abszess;-2-;-3-;Ab<szess;Ab<szess # lat. abs + cēdere

Ich schlage eine "pragmatische" Auszeichnung vor:

    abstrakt;-2-;ab<strakt;ab<s-trakt # < lat. ab+ s + trahere

    Abszess;-2-;-3-;Ab<szess;Ab<s-zess # lat. ab + s + cēdere




> > Wenn wir ein neues Trennstellensymbol einführen, ist es sehr
> > erheblich, zu definieren wo es stehen darf, was es bedeuten soll und
> > wie es in den verschiedenen Anwendungsfällen zu verarbeiten ist.
> >
> > Welchen Unterschied zu An<woh-ner=in<.i-ti-a-ti-ve soll denn das «·»
> > kennzeichnen?

> Falls der Fall »-.x-.« auftritt, soll meiner Meinung nach »·« den
> »alternativen Flatterbuchstaben« darstellen, z.B. »-.x·«.

Dann kommt es also in An<woh-ner=in<.i-ti-a-ti-ve gar nicht vor. Wo wäre
es denn hilfreich/nötig?




> >> Schalter 1: Semantische Trennungen ein/aus.
> >
> > Ich vermute, Du meinst "semantisch irreführende" Trennstellen:

> Ja.

> >>   An<woh-ner=in-i-ti-a-ti-ve  <-->  An<woh-ner=ini-ti-a-ti-ve
> >>   Ur<in<stinkt                <-->  Ur<instinkt
> >
> > Schalter 1 gilt also auch für Trennstellen *ohne* Nachbar im Abstand 1,
> > richtig?

> Ja.

> > Soll/darf Schalter 1 auch "phonetisch irreführende" Trennstellen schalten?
> >
> >   Ab<fra-ge=in-.ter<vall:  Ab<fra-ge=in-ter<vall / Ab<fra-ge=inter<vall
> >   Ju-da-i-.stik:	    Ju-da>i-stik 	  / Ju-da>istik

> Nein, sollte er nicht, deswegen die von mir vorgeschlagene andere
> Auszeichnung.


Das wäre dann aber nicht bei -.x-., sonder eben bei "phonetischer
Irreführung", z.B. Ab<fra-ge=in·ter<vall, Ju-da-i·stik.

Wird ganz schön viel...


> > Soll/darf Schalter 1 "Nottrennstellen" schalten?
> >
> >   Tel-tow-.er:  Tel-tow-er / Tel-tower
> >   Ko-.a-la: 	Ko-a-la    / Koa-la

> Dazu hab' ich keine Meinung.  Nottrennungen sind mir bei der
> Mustererzeugung nie negativ aufgefallen; sie könnten, wenn's nach mir
> geht, so behandelt werden wie bisher.

> >> Schalter 2: Keine einbuchstabigen Trennungen mit
> >>             bevorzugter/alternativer Unterdrückung.
> >
> > Was bedeutet hier bevorzugt/alternativ?

> Von *uns* bevorzugt :-)

> > Mit Stand 2018-05-09 gibt es vier Anlässe für die Auszeichnung von
> > Trennstellen mit Abstand eins mit unterschiedlichen
> > "Vorzugsregelungen" und damit die zusätzlichen Trenn-Varianten:
> >
> >   An<woh-ner=ini-ti-ati-ve # modern + Flatterbuchstabe nach hinten
> >
> >   An<woh-ner=in<itia-ti-ve # etymologisch + Flatterbuchstabe nach vorn

> Das kann ich jetzt nicht beantworten – im Prinzip ist es allerdings
> egal: Hauptsache, die Trennstellen werden systematisch kategorisiert
> (durch Filter, eigene Marker, was auch immer), sodaß ich verschiedene
> Muster zum Testen konstruieren kann, die weder einbuchstabige
> Trennungen noch sementisch irreführende Trennungen enthalten.

Ich werd an "sprachauszug.py" basteln und testen und sehen, wie weit wir
ohne spezielle Marker kommen. Dann haben wir auch ein besseres Gefühl, was
wirklich hilfreich sein kann.

> > Die "An<woh-ner=in<.i-ti-a-ti-ve" ist ein komplexer Fall, [...]

> Ja.  Mir ist dieses Wort beim Anwenden des super-einfachen Filters in
> »extract-tex.pl« als erstes aufgefallen.  Wenn ich das verfeinere
> (sobald ich mal wieder Zeit hab'), kommt bestimmt noch mehr :-)

... oder halt weniger, weil ein besserer Filter auch ohne neue Zeichen
bessere Trennschärfe bringt.

> >> Also ich denke, wir können uns ein neues Zeichen leisten :-)
> >
> > Ein extra Zeichen für seltene Ausnahmen ist eine schlechte Idee --
> > die Bedeutung wird schnell vergessen und verwirrt dann nur.  Für
> > Einzelfälle fände ich z.B. einen "formalisierten Kommentar" deutlich
> > günstiger.

> Hmm.  Wie sollte das ausschauen, Deiner Meinung nach, damit das
> maschinell erfaßt werden kann?

Wenn im Kommentar ein "tag" steht, gilt a), sonst b)...


Viele Grüße

Günter



Mehr Informationen über die Mailingliste Trennmuster