[Trennmuster] weitere Komposita (was: Gla-cischaus-see)

Mo Okt 10 12:30:34 CEST 2016

On  5.10.16, Stephan Hennig wrote:
> Am 25.09.2016 um 17:13 schrieb Werner LEMBERG:

> > Die Größe der Trennmuster ist nur schwach steigend; es spricht also
> > nichts dagegen, noch mehr viel mehr Komposita zu integrieren, um so
> > die Abdeckung zu verbreitern. Natürlich erreichen wir nie 100%, aber
> > Verbesserungen sind auf jeden Fall noch möglich.

Ich habe mal mit dem german-dict Projekt getestet.
Da gibt es 1,8 Millionen Wörter, also (falls alle unsere Wörter drin sind)
etwa 1,3 Millionen neue. 

* Viel zu viel, um von uns mit der nötigen Sorgfalt eingepflegt zu werden

* Selbst wenn die Größe der Trennmuster nur relativ schwach steigt,
  macht das die "wortliste" ca. 4 Mal so groß und damit deutlich schwerer
  zu editieren - alles dauert länger.

Das verlangt nach Prioritäten.

> Habe gerade mit Mustern für Spezialtrennungen experimentiert.  Neben
> hal7laufzeit, welches auf Schallaufzeit passt, wird, aus welchem Grund
> auch immer, auch l7laufzeite gewählt, welches auf den Plural passt.
> Allerdings auch fälschlich auf den Plural von Signallaufzeit.  Das liegt
> daran, dass die Liste letzteres Wort nur im Singular enthält.  Füge ich
> den Plural hinzu, fällt das falsche Muster einfach weg.

Ich sehe das jetzt als ein Beispiel/Beweis für die "Gefährlichkeit" der
Konzentration auf "Exoten".

> Will sagen, da die Liste inzwischen eine fast erschöpfende Menge von
> Wörtern mit Spezialtrennung enthält, besteht insbesondere noch Bedarf an
> Wörtern mit Doppelkonsonanten (gefolgt von einem Vokal), die keine
> Spezialtrennung darstellen, um falsche Treffer bei Spezialtrennungen zu
> vermeiden.  Ob der Doppelkonsonant im Stamm liegt oder an der Wortfuge
> entsteht, ist egal.  Und es sollten möglichst alle Flexionen solcher
> Wörter abgedeckt werden.

Angesichts der schieren Menge an nicht erfaßten Wörtern schlage ich dennoch
vor, zunächst Grundwörter, welche falsch getrennt werden aufzunehmen und
Flexionen erst im zweiten Schritt (das macht es dann auch einfacher, weil mit
"abgleich_neueinträge" bessere Vorschläge kommen, wenn das Grundwort schon
da ist).

Nach Filtern häufiger Endungen und Ableitungen bleiben aus german.txt
ca. 736 000 Wörter.

Davon sind 570 000 Wörter nicht in der Wortliste. Immer noch zu viele um
einfach so loszulegen.

Ableitung und "Zusammenwürfeln" mit abgleich_neueinträge bringt
ca 80 000 alternative Trennvorschläge wie

  Abkürzungsteil;Ab<kür-zung=steil
  Abkürzungsteil;Ab<kür-zungs=teil

(mit Sicherheit höchstens zur Hälfte richtig) für ca. 40 000 Wörter

und knapp 500 000 eindeutige Trennauszeichnungsvorschläge - (nicht alle
richtig) von
  Aalangeln;Aalan-geln
bis
  zytogenetisch;zy-to<ge-ne-tisch
.

Diese hab ich jetzt mit der Trennung mithilfe der Muster verglichen.
Nach "hyphenate_neueinträge" sind:

# 310403 identisch
#  28157 gleich (bis auf Sprachvariante)
#  81748 gleich (bis auf Wichtung/Unterdrückung)
#  47749 gleich (bis auf Kategorisierung)
#  23744 anders getrennt

d.h. für ca. 5% der neuen Wörter stimmen die Trennungsergebnisse nicht
überein. 

Das sieht dann so aus:

  ## Unterschiedliche Trennung: Eingabe/# Trennung mit Pattern
    Aalangeln;Aal=an-geln
  # Aalangeln;Aalan-geln
    Aareabschnitt;Aa-re=ab<schnitt
  # Aareabschnitt;Aare=ab-schnitt
    aareabwärts;aa-re=ab<wärts
  # aareabwärts;aare=ab-wärts
    aareaufwärts;aa-re=auf<wärts
  # aareaufwärts;aare=auf-wärts
    Aaregletscher;Aa-re=glet-scher
  # Aaregletscher;Aare=glet-scher
    Abbauschwerpunkt;Ab<bau==schwer=punkt
  # Abbauschwerpunkt;Ab<bau=sch=wer=punkt

  ...

    Zylinderskulptur;Zy-lin-der=skulp-tur
  # Zylinderskulptur;Zy-lin-derskulp-tur
    zynischerweise;zy-nisch=er<wei-se
  # zynischerweise;zy-ni-scher>wei-se
    Zypernhilfe;Zy-pern=hil-fe
  # Zypernhilfe;Zy-per-n=hil-fe
    Zypressensterben;Zy-pres-sen=ster-ben
  # Zypressensterben;Zy<pres-senster-ben

Die Durchsicht, Korrektur und Einarbeitung dieser 24000 Wörter könnte m.E.
ein effektiver nächster Schritt zur Verbesserung der Trennqualität sein.

Günter