[Trennmuster] weitere Komposita (was: Gla-cischaus-see)
Guenter Milde
milde at users.sf.net
Mo Okt 10 12:30:34 CEST 2016
On 5.10.16, Stephan Hennig wrote:
> Am 25.09.2016 um 17:13 schrieb Werner LEMBERG:
> > Die Größe der Trennmuster ist nur schwach steigend; es spricht also
> > nichts dagegen, noch mehr viel mehr Komposita zu integrieren, um so
> > die Abdeckung zu verbreitern. Natürlich erreichen wir nie 100%, aber
> > Verbesserungen sind auf jeden Fall noch möglich.
Ich habe mal mit dem german-dict Projekt getestet.
Da gibt es 1,8 Millionen Wörter, also (falls alle unsere Wörter drin sind)
etwa 1,3 Millionen neue.
* Viel zu viel, um von uns mit der nötigen Sorgfalt eingepflegt zu werden
* Selbst wenn die Größe der Trennmuster nur relativ schwach steigt,
macht das die "wortliste" ca. 4 Mal so groß und damit deutlich schwerer
zu editieren - alles dauert länger.
Das verlangt nach Prioritäten.
> Habe gerade mit Mustern für Spezialtrennungen experimentiert. Neben
> hal7laufzeit, welches auf Schallaufzeit passt, wird, aus welchem Grund
> auch immer, auch l7laufzeite gewählt, welches auf den Plural passt.
> Allerdings auch fälschlich auf den Plural von Signallaufzeit. Das liegt
> daran, dass die Liste letzteres Wort nur im Singular enthält. Füge ich
> den Plural hinzu, fällt das falsche Muster einfach weg.
Ich sehe das jetzt als ein Beispiel/Beweis für die "Gefährlichkeit" der
Konzentration auf "Exoten".
> Will sagen, da die Liste inzwischen eine fast erschöpfende Menge von
> Wörtern mit Spezialtrennung enthält, besteht insbesondere noch Bedarf an
> Wörtern mit Doppelkonsonanten (gefolgt von einem Vokal), die keine
> Spezialtrennung darstellen, um falsche Treffer bei Spezialtrennungen zu
> vermeiden. Ob der Doppelkonsonant im Stamm liegt oder an der Wortfuge
> entsteht, ist egal. Und es sollten möglichst alle Flexionen solcher
> Wörter abgedeckt werden.
Angesichts der schieren Menge an nicht erfaßten Wörtern schlage ich dennoch
vor, zunächst Grundwörter, welche falsch getrennt werden aufzunehmen und
Flexionen erst im zweiten Schritt (das macht es dann auch einfacher, weil mit
"abgleich_neueinträge" bessere Vorschläge kommen, wenn das Grundwort schon
da ist).
Nach Filtern häufiger Endungen und Ableitungen bleiben aus german.txt
ca. 736 000 Wörter.
Davon sind 570 000 Wörter nicht in der Wortliste. Immer noch zu viele um
einfach so loszulegen.
Ableitung und "Zusammenwürfeln" mit abgleich_neueinträge bringt
ca 80 000 alternative Trennvorschläge wie
Abkürzungsteil;Ab<kür-zung=steil
Abkürzungsteil;Ab<kür-zungs=teil
(mit Sicherheit höchstens zur Hälfte richtig) für ca. 40 000 Wörter
und knapp 500 000 eindeutige Trennauszeichnungsvorschläge - (nicht alle
richtig) von
Aalangeln;Aalan-geln
bis
zytogenetisch;zy-to<ge-ne-tisch
.
Diese hab ich jetzt mit der Trennung mithilfe der Muster verglichen.
Nach "hyphenate_neueinträge" sind:
# 310403 identisch
# 28157 gleich (bis auf Sprachvariante)
# 81748 gleich (bis auf Wichtung/Unterdrückung)
# 47749 gleich (bis auf Kategorisierung)
# 23744 anders getrennt
d.h. für ca. 5% der neuen Wörter stimmen die Trennungsergebnisse nicht
überein.
Das sieht dann so aus:
## Unterschiedliche Trennung: Eingabe/# Trennung mit Pattern
Aalangeln;Aal=an-geln
# Aalangeln;Aalan-geln
Aareabschnitt;Aa-re=ab<schnitt
# Aareabschnitt;Aare=ab-schnitt
aareabwärts;aa-re=ab<wärts
# aareabwärts;aare=ab-wärts
aareaufwärts;aa-re=auf<wärts
# aareaufwärts;aare=auf-wärts
Aaregletscher;Aa-re=glet-scher
# Aaregletscher;Aare=glet-scher
Abbauschwerpunkt;Ab<bau==schwer=punkt
# Abbauschwerpunkt;Ab<bau=sch=wer=punkt
...
Zylinderskulptur;Zy-lin-der=skulp-tur
# Zylinderskulptur;Zy-lin-derskulp-tur
zynischerweise;zy-nisch=er<wei-se
# zynischerweise;zy-ni-scher>wei-se
Zypernhilfe;Zy-pern=hil-fe
# Zypernhilfe;Zy-per-n=hil-fe
Zypressensterben;Zy-pres-sen=ster-ben
# Zypressensterben;Zy<pres-senster-ben
Die Durchsicht, Korrektur und Einarbeitung dieser 24000 Wörter könnte m.E.
ein effektiver nächster Schritt zur Verbesserung der Trennqualität sein.
Günter
Mehr Informationen über die Mailingliste Trennmuster