[Trennmuster] Fw: Wortrennungen
Werner LEMBERG
wl at gnu.org
So Aug 29 18:46:44 CEST 2021
Sehr geehrter Herr Obhof!
> ich habe mir ihre Pattern-Liste für die Worttrennung für Deutsch
> heruntergeladen. Diese habe ich mit einer umfangreichen Wortliste
> durchlaufen lassen. Hier sind > 450000 Wörter als Silentrennung
> aufgeführt.
>
> Erfreulich war die Fehlerrate von < 3%. Vermutlich habe ich aber
> noch Wörter in der Liste, die in eine Ausnahmeliste aufgenommen
> werden müssen. Dann würde sich die Fehlerrate weiter verringern.
> Es kann natürlich auch sein, das Worttrennungen in der Originalliste
> nicht stimmen.
>
> Als pattern habe ich Ihre Liste aus dem Jahr 2021 verwendet:
>
> https://ctan.org/tex-archive/language/hyphenation/dehyph-exptl%3Flang=de
Ja, das ist gut.
> Die Worliste stammt von hier:
> https://github.com/hyphenation/languages-german/blob/master/wortliste
Nein, das ist schlecht. Das ist *unsere* Wortliste, allerdings eine
Version aus dem Jahr 2016! Unsere aktuelle Version finden Sie hier,
wie auch als Kommentar am Anfang in den Patterndateien `*.pat`
angegeben:
https://repo.or.cz/wortliste.git/blob/HEAD:/wortliste
Wenn ich das richtig sehe, haben Sie also unsere Trennmuster auf
unsere eigene Wortliste angewandt :-)
> An den Worttrennungen habe ich mich immer an der aktuellen
> Rechtschreibung des Duden orientiert.
>
> Ich habe Ihnen das Ergebnis des Tests angehängt.
Herzlichen Dank; ich werde das bei Gelegenheit durchschauen.
> Vielleicht können sie das Ergebnis teilweise verfizieren und finden
> noch weitere Patterns, um weitere Korrekte Worttrennungen
> durchführen zu können.
Bitte erklären Sie genauer, wie Sie die Liste getrennt haben; es gibt
da einige Ungereimtheiten. So findet sich beispielsweise der Eintrag
[überwandst , über-wandst] ; über-wand-st
in Ihrer Liste, allerdings gibt es das korrekt getrennte Wort in
unserer Wortliste bereits als Eintrag, und zwar mindestens seit 2014
(weiter habe ich nicht gesucht). Das bedeutet, daß dieses Wort bei
korrekter Anwendung unserer Trennmuster *immer* richtig getrennt wird
und Sie bei der Erstellung der getrennten Wörter irgendwas falsch
gemacht haben müssen.
Werner
Mehr Informationen über die Mailingliste Trennmuster