[Trennmuster] Präfixe

Guenter Milde milde at users.sf.net
Mo Apr 20 11:02:35 CEST 2020


On 18.04.20, Keno Wehr wrote:

> Da fällt mir noch ein älteres Projekt ein, mit dem man diese Problemklasse
> umfassender angehen könnte:


> Am 19.04.18 um 22:48 schrieb Keno Wehr:
> > Die Listen bieten mittels geeigneter Skripte mehrere Möglichkeiten zur
> > Fehlererkennung in vorhandenen und künftigen Wortlisteneinträgen.
> > 
> > 1. Für in der Wortliste mit < gekennzeichnete Wortbestandteile kann
> > geprüft werden, ob diese in einer der Listen vorkommen.

skripte/python/edit_tools/expand_teilwoerter.py kann jetzt Präfixlisten
generieren (try --help).

> > Dies wird mit der aktuellen Wortliste etliche Treffer liefern, da ich
> > einige fragwürdige Präfixe entfernt habe. Zum Beispiel hat das „Abo“
> > einen gänzlich anderen Charakter als „Demo“ oder „Chrono“, da es auch
> > als zweiter Bestandteil vorkommt: „Zeitschriftenabo“.
> > Bei solchen Treffern sollte die Trennstelle anders kategorisiert werden
> > (beim „Abo“ mit =; in anderen Fällen scheint auch - angezeigt). Falls
> > der vorhandene Eintrag als korrekt erachtet wird, sollten die
> > Präfixlisten erweitert werden, die keinen Anspruch auf Vollständigkeit
> > erheben können.

M.E. sind unterschiedliche Auszeichnungen sinnvoll, wenn Homonyme vorliegen,
also z.B. "au-to<gen" vs. "Au-to=bahn". Bei Abo ist es ein Grenzfall und mir
egal.  


> > Mit dieser Prüfung können auch Präfixe mit fehlerhafter Trennung
> > entdeckt werden wie „af-ro“ (Trennung regelwidrig)

Allerdings konform zu de-1996.

> > oder „makro“ (Trennung fehlt).
> > 
> > Auch lustige Versehen wie der „Metereo<loge“ (sic!) kommen auf diese
> > Weise zum Vorschein – der wäre ein Fall für die Nichtwortliste.

> > 2. Für Präfixe, die selbst ein Präfix enthalten, kann geprüft werden, ob
> > die „Klammerung“ im Sinne einer korrekten Darstellung der
> > Bindungsverhältnisse in der Wortliste korrekt ist.
> > 
> > Beispielsweise ist aufgrund der Rechtsassoziativität von < der Eintrag
> > „Inter<fero<meter“ falsch. Es müsste „Inter<fero<=meter“ (Messgerät, das
> > auf Interferenz beruht) heißen. Da die Listen „fero“ nicht enthalten,
> > wohl aber „inter<fero“, können diese und einige vergleichbare Fehler
> > automatisiert erkannt werden.
> > 
> > 3. Es kann geprüft werden, ob es Wörter gibt, die Präfixe enthalten, die
> > nicht als solche markiert sind.
> > 
> > Hier ist natürlich eine manuelle Entscheidung des Einzelfalls
> > unumgänglich. Nicht jedes Wort, das mit „in“ beginnt, enthält auch das
> > Präfix „in“. Während der Eintrag „auto=assoziativ“ falsch ist, ist
> > „Auto=bahn“ richtig, da „Auto“ im zweiten Fall ein Kurzwort ist. Die
> > Kommentare in den Listen weisen auf gleichlautende Kurzwörter hin, bei
> > denen dann die Markierung mit = statt < erfolgen sollte, was natürlich
> > nicht automatisiert möglich ist.
> > 
> > 4. Es lässt sich prüfen, ob es Präfixe gibt, die in der Wortliste
> > nirgends vorkommen.
> > 
> > Bei Treffern muss im Einzelfall überlegt werden, wie zu verfahren ist.
> > Ich habe das kürzlich erwähnte Präfix „deutero“ ergänzt; in der
> > Wortliste kommt das bisher nicht vor. Daher würde ich „Deuteronomium“
> > und „deuterokanonisch“ ergänzen. In anderen Fällen können so vielleicht
> > unnötige Präfixe gelöscht oder orthographisch korrigiert werden.
> > 
> > 5. Man könnte – weitgehend manuell – nach Kurzwörtern suchen, die in der
> > Wortliste fälschlich als Präfixe kategorisiert sind.

Im Sinne unserer Pragmatik ist das nicht immer falsch. Wenn im Einzelfall
die Auszeichung deutlich komplexer wird (wegen der Wichtung), bin ich für
lassen.

> > Solche Kategorisierungsfehler können nicht automatisch erkannt werden,
> > wenn das Kurzwort in gleicher Schreibung auch als Präfix existiert.
> > Beispielsweise ist in der Wortliste die „Demoseite“ falsch kategorisiert
> > ist, „Demo“ hier das Kurzwort für Demonstration ist und nicht der
> > griechische Wortteil für „Volk“. Evtl. könnte es nützlich sein, dafür
> > eine zusätzliche Liste von Präfixen anzulegen, die auch als Kurzwörter
> > vorkommen. Bisher finden sich Hinweise dazu nur in den Kommentaren der
> > Präfixlisten.

  ./expand_teilwoerter -v --praefix=wörter

> > 6. Schließlich wäre es möglich, mit geeigneten Heuristiken nach Präfixen
> > zu suchen, die bisher weder in der Wortliste, noch in den Präfixlisten
> > berücksichtigt sind.
> > 
> > Beispielsweise haben viele Präfixe, die auf einen Vokal enden, eine
> > Nebenform ohne Vokal vor Vokalen. Möglicherweise wurden die noch nicht
> > alle erfasst. Ob derartige Versuche erfolgversprechend sind, weiß ich
> > allerdings nicht.

Bitte bedenken:

  Schwierig ist die Markierung von „historischen“ Präfixen, die im heutigen
  Sprachverständnis nicht als eigenständig wahrgenommen werden. Kriterien
  sind die „Güte“ der Trennstelle (geringe Störung des Leseflusses bei
  Zeilenumbruch an dieser Stelle), die Lang-S-Schreibung (Schluss-S auch bei
  „s-s“, „s-t“, oder „s-p“) und der Aufbruch von Ligaturen an dieser Stelle.

  Immer markiert wird die Morphemgrenze, wenn dort abweichend von der
  „Sprechsilbenregel“ getrennt werden kann:

    en<er-gisch, En<er-gie  # vgl. Syn<er-gie
    In<sti-tut              # de-1996: In<s-ti-tut
    A<·scor-bin             # Trennung nur im Gesangstext (siehe unten)

  ...

  Wenn keine besonderen Gründe vorliegen, wird die einfache Auszeichnung
  bevorzugt:


Viel Spaß beim Experimentieren

Günter



Mehr Informationen über die Mailingliste Trennmuster