[Trennmuster] Flatterbuchstabe

Guenter Milde milde at users.sf.net
Di Nov 1 21:10:23 CET 2016


On  1.11.16, Werner LEMBERG wrote:

> >>   * Flattervokale (genau-e-re, de-1901 und de-1996)
...
> >>   * Flatterkonsonanten (Indus-t-rie, nur de-1996)
...
> > Ich plädiere für vollständige Markierung
...
> Auch OK.  Allerdings bitte ich, jetzt noch keine flatterhaften
> Änderungen einzupflegen, sondern ein bißchen abzuwarten, bis das neue
> interne Format »steht«.

...

> Mit regulären Ausdrücken in Python kenne ich mich nicht so gut aus,
> aber in Perl gibt's auch »look-around assertions«, die äußerst
> hilfreich sind.

Ich habe mich auf "Posix-Regexps" beschränkt, aber auf jeden Fall
Danke für den Hinweis auf die look-ahead und -behind Muster.

Ich hänge eine Zusammenfassung meiner Vorschläge an.

Günter


Behandlung alternativer Trennungen
==================================


Einbuchstabige Silben
=====================

"Flattervokale", zulässig in de-1901 und de-1996.

In der Wortliste aus "typographischen Gründen" (zumindest bis 2016-10-31)
nur eine Trennmöglichkeit erfaßt.

Bsp.: 
   genau-e-re, 

Vorschlag:
   Beide Stellen markieren. Wenn wie bisher die Unterdrückung der ersten
   Trennstelle gewünscht ist, kann dies im Extraktionsskript mit
   
     -([aeiouäöü])-  ==>  \1-
     
   erfolgen.

Ist die zweite Trennungen ungünstig, so kann sie ganz normal unterbunden
werden:

   Aleuten;Ale-u..-ten
   Alëuten;Alë-u-ten
 
Die Unterdrückung ungünstiger Trennungen muss vor der obigen Ersetzung
erfolgen:

  # Entferne die ungünstigere von 2 benachbarten Trennstellen:
  "-\.+([aeiouäöü])-([^.])" -> "\1-\2"
  "-([^.])([aeiouäöü])-\."  -> "-\1\2"
  
  "-([aeiouäöü])-"          -> "\1-"


Trennalternativen
=================

Die Reform 1996 erlaubt in einigen Fällen Trennalternativen. 
Dabei sollte in einem Text konsistent eine der Alternativen verwendet
werden. Die Trennmuster bevorzugen die etymologische Trennung.

§112 
  In Fremdwörtern können die Verbindungen aus Buchstaben für einen
  Konsonanten + l, n oder r entweder entsprechend §110 getrennt werden, oder
  sie kommen ungetrennt auf die neue Zeile" 

§113
  Wörter, die sprachhistorische oder von der Herkunftssprache her gesehen
  Zusammensetzungen oder Präfigierungen sind, aber nicht mehr als solche
  empfunden oder erkannt werden kann man entweder nach § 108 oder nach § 109
  bis § 112 trennen.
  
  In Einzelfällen ist eine entsprechende Eindeutschung der Trennung schon
  vor 1996 erfolgt, z.B. Hos-piz seit 1976 auch Hos-piz.

Die "naiven" Trennungen lassen sich relativ einfach finden:

Regel §113 "erzeugt" ein "-" im Abstand 1 zu "<" oder "=", z.B.
Inte-r<esse, Ex<a-men. Die Ausdrücke

     "-(.)([<=]+)"   ==>  "\1\2"
     "([<=]+)(.)-"   ==>  "\1\2"

müssten alle Fälle des § 113 abdecken. Ggf. sind noch Fälle von
"Konsonantensprung" mit mehrbuchstabigen Konsonanten (th, rh, sh, ch, ck) zu
berücksichtigen.

Regel §112 "erzeugt" gleichwertige Trennstellen vor/in einem
"Konsonantencluster", z.B. In<dus-t-rie, An-th-rax.

Der Ausdruck

    "-([bcdfghjklmnpqrstvwxzß]h?)-([lnr])" ==> "-\1\2"

sollte alle neuzugelassenen Alternativtrennstellen ausfiltern.


Je nach Entscheid über einbuchstabige Silben können übersehene
"Flattertrennungen" mit

   "-[bcdfghjklmnpqrstvwxzß]+-" 
   
aufgefunden werden.   



Mehr Informationen über die Mailingliste Trennmuster