[Trennmuster] weitere Komposita
Werner LEMBERG
wl at gnu.org
Do Okt 13 09:49:43 CEST 2016
>> > Die Größe der Trennmuster ist nur schwach steigend; es spricht also
>> > nichts dagegen, noch mehr viel mehr Komposita zu integrieren, um so
>> > die Abdeckung zu verbreitern. Natürlich erreichen wir nie 100%, aber
>> > Verbesserungen sind auf jeden Fall noch möglich.
>
> Ich habe mal mit dem german-dict Projekt getestet.
> Da gibt es 1,8 Millionen Wörter, also (falls alle unsere Wörter drin sind)
> etwa 1,3 Millionen neue.
>
> * Viel zu viel, um von uns mit der nötigen Sorgfalt eingepflegt zu
> werden
Da stimme ich Dir nicht zu. Ich habe einige Helferlein geschrieben
(die ich demnächst hier vorstellen werde), welche die Arbeit sehr
angenehm und flott machen. Ich habe testweise alle Einträge »aa«-»ab«
aus »german.dic« abgearbeitet (rund 17000 Einträge) – innerhalb von
nur vier Stunden!
> * Selbst wenn die Größe der Trennmuster nur relativ schwach steigt,
> macht das die "wortliste" ca. 4 Mal so groß und damit deutlich
> schwerer zu editieren - alles dauert länger.
Auch dazu werde ich bald noch mehr schreiben. Nur kurz: Man kann
derzeit zu 99.95% (!) alle Trennvarianten *korrekt* aus der
reformierten Trennliste mit einem Skript generieren. Nur ca. 2000
Einträge sind manuell zu behandeln.
> Angesichts der schieren Menge an nicht erfaßten Wörtern schlage ich
> dennoch vor, zunächst Grundwörter, welche falsch getrennt werden
> aufzunehmen und Flexionen erst im zweiten Schritt (das macht es dann
> auch einfacher, weil mit "abgleich_neueinträge" bessere Vorschläge
> kommen, wenn das Grundwort schon da ist).
Das klingt sinnvoll – wer immer an der Liste arbeitet: Bitte vorher
mitteilen, welchen Buchstaben (oder Buchstabenbereich) er sich
vornehmen will!
> Die Durchsicht, Korrektur und Einarbeitung dieser 24000 Wörter
> könnte m.E. ein effektiver nächster Schritt zur Verbesserung der
> Trennqualität sein.
Auf jeden Fall.
Werner
Mehr Informationen über die Mailingliste Trennmuster