[Trennmuster] kleine Statistik zu Lang- und Kurzformat

Guenter Milde milde at users.sf.net
Mo Apr 9 18:27:38 CEST 2018


On  4.04.18, Werner LEMBERG wrote:

> Ein paar kleine statistische Anmerkungen.


> Mit dem heutigen Tag sind 454.143 Einträge in unserer Wortliste.

> Das entspricht im Langformat 470.531 Zeilen; das Langformat hat also
> rund 3.6% mehr Zeilen als das Kurzformat.

Welche dieser Zahlen nun die Größe "Einträge in unserer Wortliste" besser
beschreibt kann disputiert werden (muss aber auch nicht). Zum Glück ist der
Unterschied im Kürzungsfaktor vernachlässigbar.

Die ~24000 zusätzlichen Einträge sind Varianten mit ß-Ersatzschreibung und
Wörter mit aufgrund der Dreikonsonantenregel entfallenen Konsonanten.

Die Kürzung um ca. 3½% ist nicht wirklich erheblich (der Vorteil nicht bei
jedem Eintrag an die eventuelle ß-Ersatzschreibung denken zu müssen schon
eher). Die "*spell" Wortliste hat da deutlich beeindruckendere Kürzungen
infolge des Spezialformats für Ableitungen (12000 Kurzeinträge für 1,8 Mill
Wörter).

> Im Langformat sind 64.382 Zeilen »komplex« (haben also mehr als zwei
> Felder); das sind rund 13.7%.

> Im Kurzformat dagegen gibt's derzeit genau 1156 komplexe Zeilen (mit
> mehr als einem Feld); das sind ca. 0.25%.

> Mit anderen Worten, auf rund 54 komplexe Langeinträge kommt ein
> komplexer Kurzeintrag – eine deutliche Erleichterung!

In der Tat eine deutliche Erleichterung beim Ergänzen und für manche
Editieraufgaben.

In anderen Fällen ist die Arbeit an der Langliste einfacher, z.B. kann
mit Standardwerkzeugen schnell und eindeutig geprüft werden, ob ein Wort
in der Liste ist (grep <word>) oder die Auswirkung einer Änderung auf die
verschiedenen Sprachvarietäten ist z.B. im git-diff deutlicher zu sehen.

Zumindest solange die Feinheiten der Transformationsregeln nicht stabil
und auf Herz und Nieren geprüft sind, bin ich daher für die Beibehaltung
eines *expliziten* Formats mit einem eindeutigen Schlüssel pro Zeile als
"Urtext" (entweder das bisherige Langformat oder eine vereinfachte
Variante mit 5 oder 6 Spalten und einfacheren Suchregeln).

Viele Grüße

Günter




Mehr Informationen über die Mailingliste Trennmuster