[Trennmuster] Sprechsilben vs. Wortherkunft

Guenter Milde milde at users.sf.net
Do Feb 27 22:43:09 CET 2014


Liebe Trennmustler,

On 27.02.14, Stephan Hennig wrote:
> Am 25.02.2014 09:53, schrieb Werner LEMBERG:

> >> Wenn | und - mit nur einen Buchstaben dazwischen
> >> vorkommen, muß je nach Hausorthographie entweder - oder |
> >> unterdrückt werden. Als regexp-replace Regeln also für
> >> "ethymologisch":
> >>
> >>   -(.)\|   ->  \1|
> >>   |(.)\-   ->  \1|
> > 
> > Mhmm.  Für nicht-etymologische Trennungen bzw. zusätzlichen
> > »Duden«-Trennungen hätte ich trotzdem gern ein separates Zeichen...

> Von impliziten Regeln halte ich auch nicht so viel.  Allerdings halte
> ich auch nicht viel von weiteren Trennzeichen.

> Außerdem halte ich nichts davon, sich bei vereinfachter Trennung direkt
> auf den Duden zu beziehen.

Das ist auch nicht nötig: wir beziehen uns ja nicht auf den Duden, sondern auf
das amtliche Regelwerk:

Und dort steht auf S. 103 ff.

  § 113 Wörter, die sprachhistorisch oder von der Herkunftssprache her
  gesehen Zusammensetzungen oder Präfigierungen sind, aber nicht mehr als
  solche empfunden oder erkannt werden, kann man entweder nach § 108 oder
  nach § 109 bis § 112 trennen. 
  
  Beispiele: hin-auf/hi-nauf, her-an/he-ran, dar-um/da-rum,
  war-um/wa-rum; Chrys-antheme/Chry-santheme, Hekt-ar/Hek-tar,
  Heliko-pter/Helikop-ter, inter-essant/inte-ressant,
  Lin-oleum/Li-noleum, Päd-agogik/Pä-dagogik

  -- Rat für deutsche Rechtschreibung: Deutsche Rechtschreibung. 
     http://rechtschreibrat.ids-mannheim.de/download/regeln2006.pdf,
     München, 2006.

Wenn die "wortliste" eine verläßliche Quelle für die Trennung deutscher
Wörter in den Orthographievarianten de-1901 und der aktuell gültigen
Varietät (de-1996) sein will/soll, so muss sie m.E. auch alle
Trennmöglichkeiten, die das amtliche Regelwerk zuläßt erfassen.

Das ist zu unterscheiden von den "Pattern", die im TeX-Paket dehyph-exptl
geliefert werden: dort wird über eine in dehyph-exptl.pdf beschriebene
"Hausorthographie" ein Teil der zulässigen Trennstellen unterdrückt.
Das betrifft 

 a) Irreführende Trennungen bzw. Trennungen, die beim Lesen die Sinn-
    erfassung stören `.',
   
 b) Mehrdeutige Trennungen […/…],
 
 c) in de-1901 Trennungen nach Dreikonsonantenregel und Trennung von ck
    {…/…},
 
 d) in de-1996 Trennungen nach "Sprechsilben" in unmittelbarer
    Nachbarschaft zu etymologischen Trennungen.
     
Von diesen in TeX unterdrückten Trennungen sind a) bis c) in der "wortliste"
erfaßt, während Trennmöglichkeiten nach d) zur Zeit fehlen.

Eine "natürliche" Erweiterung der Syntax für diese komplexen Fälle auf
Fall d) wäre (...) oder [...] (ohne Alternativtrenner«/»), z.B.

    hinauf;-2-;hin|auf;hi(-n|)auf

oder

    hinauf;-2-;hin|auf;hi[-n|]auf

    
Damit wäre auf für Mensch und Algorithmus leicht erkennbare Weise markiert,
dass hier ein Spezialfall (in diesem Falle eine durch Hausorthographie zu
lösende Mehrdeutigkeit) vorliegt. Im Unterschied zu "echt mehrdeutigen
Trennungen" (Wach[s=/=s]tube)  ist die Auflösung aber

a) dokumentenweit einheitlich,

b) nicht zwingend (eine Mischung der Varianten ist zwar häßlich, aber nach
   amtlichen Regeln nicht verboten).

und damit in jedem Falle automatisiert möglich.


Für Fälle nach § 112 

  In Fremdwörtern können die Verbindungen aus Buchstaben für einen
  Konsonanten + l, n oder r entweder entsprechend § 110 getrennt werden,
  oder sie kommen ungetrennt auf die neue Zeile.
  
  Beispiele: nob-le/no-ble, Zyk-lus/Zy-klus, Mag-net/Ma-gnet,
  Feb-ruar/Fe-bruar, Hyd-rant/Hy-drant, Arth-ritis/Ar-thritis

  -- http://rechtschreibrat.ids-mannheim.de/download/regeln2006.pdf, S. 103

können wir uns nicht auf «|» oder «-» verlassen um die Varianten zu
unterscheiden. Andererseits ist bei Mehrdeutigkeit nach § 112 die
"traditionelle" Trennung stets die erste und die "sprechsilbige" Trennung
die zweite:

  Hydrant;-2-;Hy-drant;Hy(-d-)rant
  
  Arthritis;-2-;Arth-ri-tis;Ar(-th-)ri-tis

so daß z.B. der reguläre Ausdruck

  \(-(.)-\)  ->  -\1
  
die Markierung nach "traditioneller",

  \(-(.)-\)  ->  -\1

nach "moderner" und

  \(-(.)-\)  ->  -\1-

nach "laisse faire" Hausorthographie auflösen würde.
  

> Der Duden ist viel zu flatterhaft und wir können nicht ständig der
> aktuellen Auflage hinterherjagen.  

Das ist auch gar nicht nötig. Auch andere Quellen geben die Worttrennung
an, z.B. http://de.wiktionary.org/wiki/hinaus

  Worttrennung: hi·n·aus 
  
> Ich würde es außerdem selbst bei vereinfachter Trennung vorziehen,
> strikt Indus-trie oder Indust-rie zu trennen, aber nicht beide
> Trennungen in einem Text zu verwenden.  Man wird durch solche Wechsel
> beim Lesen unnötigerweise abgelenkt.

Richtig, die Anwendersoftware¹ sollte über eine "Hausorthographie" bei
Trennstellenhäufung eine geeignete Auswahl treffen. Doch dazu ist es
nötig, in der Quelle alle in der zugrundeliegenden "amtlichen"
Orthographie gültigen Trennmöglichkeiten zu erfassen.

¹ Für TeX bedeutet dies (so wie wir es bei a)-c) schon handhaben) eine
  Selektion bei der Aufbereitung der Eingabedaten für `patgen`.

> Falls jemand sportliches Interesse an einer Erfassung vereinfachter
> Trennungen verspürt, so schlage ich vor, diese Trennungen als weitere
> Varietät zu betrachten, das heißt, eine bzw. mehrere weitere Spalten
> einzufügen.

Das halte ich (ebenso wie ein zusätzliches Trennzeichen) für eine
ungünstige Verkomplizierung der Datenbank. 

Eher betrachte ich die Varianten "de-1996-x-etymologisch" (konservativ)
und "de-1996-x-sprechsilben" ("Duden") als gleichwertig mit z.B.
"de-1996-x-haupttrennstellen" oder "de-1996-x-aesthetisch" (`make
major`). Und ich möchte keine Zusatzspalten mit

  Hausaufgabe;Haus=auf|ga-be;Haus=auf|gabe;Haus=aufgabe
  
(man stelle sich eine ähnliche Ergänzung jetzt für 

  Abrüstungsmaßnahme;-2-;Ab|rü-stungs==maß=nah-me;Ab|rüs-tungs==maß=nah-me  

vor).

Viele Grüße

Günter



Mehr Informationen über die Mailingliste Trennmuster