[Trennmuster] einfacher Lösungsansatz für Präfixe (was: Re: An|trag = falsch?!)

Guenter Milde milde at users.sf.net
Do Aug 29 12:41:44 CEST 2013


On 26.08.13, Tobias Wendorff wrote:
> Am Mo, 26.08.2013, 15:29 schrieb Guenter Milde:

> Im Endeffekt könnte man sich das Leben ja einfach machen und die
> Präfixe so klassifizieren (Beispiele):

"Die Schwierigkeiten wachsen, je näher man dem Ziele kommt."
Es bleiben die Fragen:

* Welche dieser Kategorien sollen wie ausgezeichnet werden?

und vor allem

* Was gehört in welche Kategorie(en)?

Entscheidungen müssen nachvollziehbar begründet/dokumentiert werden.


Aber die Liste der Kategorien kann vielleicht helfen, etwas mehr Klarheit in
das Konzept zu bringen:

> - echte bzw. Nominal-Präfixe: be, de, dis, ent, er, ge, in, miss, re,
>   un, ur, ver, zer

Das ist der einfachste Teil: 

- die Auszeichnung mit »|« liegt nahe,
  Stand: Misch aus »-« (historisch) und »|«.

- die Menge ist begrenzt und belegt (Unschärfe gibt es bei der Abgrenzung zu
  den Konfixen, doch da ich auch diese mit »|« auszeichnen würde ist dies
  kein Problem.)

Ich denke, daß alle Vertreter bereits in "wortteile/praefixe" gelistet
und somit auch in der Auswertung zum Stand der Arbeit enthalten sind.

> - verbale Präfixe und Verbalpartikel: ab, an, auf, aus, bei, dar, drauf,
>   durch, ein, her, hin, hinter, los, nach, ob, um, unter, über, vor,
>   wider, zu, zwischen

- Auszeichnung mit »=« oder »|«? 

  Stand: Misch aus »=« (historisch) und »|«.

  Für die Lang-S Schreibung und den Ligaturaufbruch ist 
  
  * die Wahl des Trennzeichens egal,
  * die Kennzeichnung (auch in abgeleiteten Worten) entscheidend:

      Auf|lage, Aus|ſicht, aus|ſichtsreich, trans|portieren
  

> - Verbwurzeln: denk (wie in denk|bar), geh, hol, lauf, mach, trag

Diese würde ich nicht als Präfixe markieren:

- In Verbindung mit Wortbildungssuffix (wie mit jedem Suffix) steht zur
  Zeit »-«:
  
    denk-bar, er|träg-lich
  
  in Analogie zu Flexionsendungen wie in denk-en, trag-en.
  
  Wenn dies künftig geändert werden sollte, würde ich dies nicht mit
  "Verbwurzel ist Präfix" sondern mit "markiere Trennstelle vor
  Wortbildungssuffix" begründen.

- In Verbindung mit freiem Morphem steht »=«: Denk=an|satz

- Frage: was ist mit Bau=denk=mal (zur Zeit so in der Liste)?

> - Konfixe: ex, hyper, inter, sub // bio, euro, geo, polit, öko, retro, tele

- Auszeichnung mit »|« oder »=«.

- Problemfälle sind Unschärfen zwischen Konfix und Kurzwort, z.B.
  Radio=sender, Ra-dio|ap-pa-rat (wohingegen die Fälle
  
     Ra-dio=an|sa-ger  vs.  radio|aktiv
     
  meines Erachtens recht eindeutig sind).
 

> - Adjektive: alt, blau

Sind zur Zeit von blau=äu-gig bis weiß=blau mit »=« gekennzeichnet.
Ich sehe da keinen großen Handlungsbedarf. Auch wenn

  Alt|bau=er|.hal-tung

gefälliger aussieht und weniger Zeichen braucht als

  Alt=bau==er.hal-tung  

stellt sich sonst das Problem der Konsistenz: Bei vielen einsilbigen
Adjektiven erscheint die Auszeichnung als Präfix "natürlich":

  Groß|va-ter, Neu|bau. 

Aber wo ist die Grenze zu 

  Bil-lig=an|bie-ter oder Sau-ber=mann?


> Probleme mit doppelförmigen Präfixen, wie "los-en" und "ein-en"
> kann man ignorieren. Es geht ja nicht um die genaue Klassifizierung in der
> Wordliste, sondern um die Erkennung des Präfixes.

In diesem Beispielen ist die erste Silbe aber kein Präfix sondern enthält
den Wortstamm.

"los" ist ein klassisches Beispiel, warum viel Handarbeit in der
Klassifizierung steckt:

  los|fahren        # Verbalpartikel
  los-en, lös-bar   # Verbstamm + Suffix
  
  anstands-los      # Wortbildungssuffix
  Bau=los	    # Grundwort

In der Datei "wortteile/vorsilbenausnahme" habe ich bereits
zweieinhalbtausen Wörter der Trennliste gesammelt, die bei automatischer
Suche nach Präfixen zu Fehlern führen würden, von 

  Abbe
  Abbeizer     # Ab|bei-zer, nicht Ab||bei|zer

bis

  zwiebelige   # nicht zwie|be-li-ge
  
Dieser Aufwand ist ein Grund dafür, daß bisher einige echte Präfixe nicht
markiert sind (Auszug aus der Ausgabe von skripte/python/analyse.py):

Folgende in der "wortliste" als "Vorsilbekandidaten" erkannte Silben sind

markiert mit      |     -    =
be               68  9993    0
de               89  1025    0
er                2  5325    0
ge             1690 19942    0
in               24  1457    0
kon               0  1193    0
re                0  1773    0

Für alle Fälle mit »-« muß nachgesehen werden, ob es sich um echte Präfixe
oder Erstsilben eines Stammmorphems handelt.

Günter



Mehr Informationen über die Mailingliste Trennmuster