[Trennmuster] Trennstellenunterdrückung
Guenter Milde
milde at users.sf.net
Sa Mai 19 23:18:04 CEST 2018
Lieber Werner, liebe Trennfreunde,
On 19.05.18, Werner LEMBERG wrote:
> >> Hat jemand von Euch schon Trennmuster erzeugt und dort Fehler
> >> gesucht?
> >
> > Nein, das ist nicht mein Spezialgebiet. Aber ich habe Eingangsdaten
> > für patgen erzeugt (mit sprachauszug.py) und werde das noch weiter
> > ausbauen und testen.
> Danke. Ich denke, es wird wohl das beste sein, mein
> »extract-tex.pl«-Skript in die Pension zu schicken und es durch
> »sprachauszug.py« zu ersetzen, das doch deutlich flexibler ist.
Das wäre eine Möglichkeit, aber
* noch ist nicht alle Funktionalität da (es fehlen noch "Spezialtrennungen"
([a/b] und {a/b}) und
* es ist sicherer zwei Implementierungen zu haben.
Wenn die Zeit da ist, sollte extract-tex.pl durchaus weiterentwickelt
werden...
> >> Im Besonderen: funktioniert die Fremdwort-Automatik, sodaß das »t«
> >> ans »r« angebunden wird, wenn man etymologisch trennen will?
> >
> > Ja. Siehe fremdwortsilben() in wortliste.py.
> >
> > fremdwortsilben(wort):
> > ger<i-a-t-ri-sche -> ger<i-a-tri-sche
> > fremdwortsilben(wort, 'modern'):
> > ger<i-a-t-ri-sche -> ger<i-at-ri-sche
> >
> > Komplett "wie früher" wird es durch Wahl des "etymologischen"
> > Trennstils in sprachauszug.py:
> >
> > # >>> etymologisch(u'ger<i-a-t-ri-sche')
> > # u'ger<ia-tri-sche'
> Das schaut alles sehr gut aus, danke!
> > Aber wir können auch anders:
> >
> > # >>> modern(u'ger<i-a-t-ri-sche')
> > # u'geri-at-ri-sche'
> Warum nicht »ge-ri-at-ri-sche«? Was genau hindert uns daran, bei der
> »modernen« Trennung nach »ge« nicht ebenfalls zu trennen? Oder anders
> gefragt (wie schon in meiner letzten E-Mail), warum fehlt diese
> Trennstelle in »wortliste«?
Das haben wir vergessen, weil es ja in diesem Fall zunächst um die
einvokalischen Silben ging und uns bei der Suche nach "ia" auch
"geriatrisch" in die Finger gekommen ist. Dann haben wir nach dem zweiten
Schritt (-t-r) an den dritten nicht mehr gedacht. Ist korrigiert.
...
> Meiner Meinung nach fehlt irgendwas bei der
> Sprechsilben-Trennstellenauszeichnung, wenn wir nicht »ge-ri-...«
> hinbekommen...
Aber es klappt, auch ohne neues Trennzeichen:
# >>> run_filters(['etymologisch'], u'ge-r<i-a-t-ri-sche')
# u'ger<ia-tri-sche'
# >>> run_filters(['modern'], u'ge-r<i-a-t-ri-sche')
# u'ge-ri-at-ri-sche'
> > [...]
> >
> > Ich schlage eine "pragmatische" Auszeichnung vor:
> >
> > abstrakt;-2-;ab<strakt;ab<s-trakt # < lat. ab+ s + trahere
> >
> > Abszess;-2-;-3-;Ab<szess;Ab<s-zess # lat. ab + s + cēdere
> Ja.
Übernommen.
Wir müssen uns noch überlegen, ob die unaussprechliche aber regelkonforme
zusätzliche Trennung nach dem t in die "wortliste" soll.
Der Duden listet bei "abstrakt" zwar nur 2 Trennungen, aber je nach
Kombination der Alternativen nach §112 und §113 gibt es drei
Trennvarianten:
# >>> run_filters(['etymologisch'], u'ab<s-t-rakt')
# u'ab<strakt'
# >>> run_filters(['modern'], u'ab<s-t-rakt')
# u'abst-rakt'
# >>> run_filters([syllabisch, fremdwortsilben], u'ab<s-t-rakt')
# u'abs-trakt'
Bei "Distrikt" hat übrigens auch der Duden alle 3 Varianten dabei:
Von Duden empfohlene Trennung: Dis|trikt
Alle Trennmöglichkeiten: Di|s|t|rikt
> >> Falls der Fall »-.x-.« auftritt, soll meiner Meinung nach »·« den
> >> »alternativen Flatterbuchstaben« darstellen, z.B. »-.x·«.
> >
> > Dann kommt es also in An<woh-ner=in<.i-ti-a-ti-ve gar nicht vor. Wo
> > wäre es denn hilfreich/nötig?
> Statt »-« könnte auch »[<>=]« stehen. Anderes Beispiel ist
> »Fernabitur«.
Das habe ich jetzt aufgenommen, aber auch da ist kein "doppelseitig
ungünstiger" Flatterbuchstabe:
Fernabitur;-2-;Fern=ab<.itur;Fern=ab<.i-tur
mit den Varianten:
# >>> run_filters(['etymologisch'], u'Fern=ab<.i-tur')
# u'Fern=ab<.itur'
# >>> run_filters(['modern'], u'Fern=ab<.i-tur')
# u'Fern=abi-tur'
Und nach entfernen der ungünstigen Stelle:
# >>> run_filters(['etymologisch', 'standard'], u'Fern=ab<.i-tur')
# u'Fern=abitur'
Zur Zeit gibt es den Fall »-.x-.« (bzw. "[-<>=]\..[-<>=]\.") nicht und ich
denke, es wird ihn auch nicht geben.
Falls doch, sollten wir beim vorliegen eines konkreten Beispiels überlegen,
ob ein neues Trennzeichen gebraucht wird oder evt. auch die bereits
definierten "Stufen der Ungünstigkeit" (., .., ...) ausreichen um da zu
differenzieren.
Unabhängig davon könnte es sinnvoll sein, zwischen den Kategorien
* semantisch ungünstig (Bürgerin-itiative)
* phonetisch ungünstig (altrui-stisch (AR))
* Nottrennung (Treptow-er, To-ilette)
zu unterscheiden.
Viele Grüße und schöne Pfingsten,
Günter
Mehr Informationen über die Mailingliste Trennmuster