[Trennmuster] Fehlende Wörter
Guenter Milde
milde at users.sf.net
Mi Sep 16 16:57:30 CEST 2020
Lieber Sascha,
vielen Dank für die Liste. Jetzt, wo die Ferienzeit vorbei ist, kann ich
auch mal einen Blick drauf werfen.
Auch wenn wir sicher nicht alle Wörter aufnehmen werden, ist sie eine
gute Ergänzung zu unserem Referenzkorpus "german.dic" des "Free German
Dictionary" Projekts https://sourceforge.net/p/germandict.
On 27.08.20, Sascha Brawer wrote:
> Ich habe Eure Wortliste mit einem Sprachkorpus abgeglichen, das mit einem
> kleinen Skript aus deutschsprachigen Online-Nachrichtentexten erzeugt
> wurde. (Ich hatte dieses Skript zum Erstellen von Korpora vor längerer Zeit
> einmal für einen früheren Arbeitgeber geschrieben, der den Quelltext unter
> einer freien Lizenz freigegeben hat; siehe hier
> <https://github.com/google/corpuscrawler>).
> In der Beilage findet Ihr jene Wörter aus diesem Sprachkorpus, die in Eurer
> Liste zur Zeit noch fehlen.
> Die Liste ist nach absteigender Worthäufigkeit im Nachrichtenkorpus
> geordnet.
Das ist eine interessante Zusatzinformation, die in "german.dic" fehlt und
uns helfen kann die richtigen Prioritäten bei der Neuaufnahme zu setzen.
(Wir kennen zur Zeit 1 618 674 Wörter, die in unserer Liste fehlen.
Mit < 5 aktiven Bearbeitern reicht dieser Vorrat noch lang...)
> Vieles sind Eigennamen (die man allerdings auch gerne korrekt trennen
> möchte), aber es hat auch ein paar ganz normale deutsche Wörter dabei.
> Zum Beispiel kommt das Wort „Hörverstehen“ 3322 Mal im Sprachkorpus vor
> (das insgesamt 46 Millionen Wörter umfasst), es fehlt aber aktuell noch
> in Eurer Wortliste.
Dazu ist noch anzumerken, dass der TeX-Trennalgorithmus "patgen" nur eine
Stichprobe korrekt getrennter Wörter braucht. Die meisten deutschen
Wörter werden mit "patgen" korrekt getrennt, auch wenn sie nicht explizit
in der "Wortliste" vorkommen.
> Vielleicht hilft Euch die beiliegende Datei ja beim Vervollständigen Eurer
> Wortliste? Eigentlich hatte ich gedacht, dass ich diesen Abgleich schon
> einmal gemacht hatte, aber offenbar hatte ich das falsch im Kopf?
> Jedenfalls schienen diese Wörter noch zu fehlen.
Ich könnte mir vorstellen, dass in näherer Zukunft die Wörter mit N>1000
bedingungslos und weitere bei Fehltrennung durch 'patgen'
in die Liste aufgenommen werden.
Gruß und Dank,
Günter
Mehr Informationen über die Mailingliste Trennmuster