[Trennmuster] Wortlisten-Formate
Guenter Milde
milde at users.sf.net
Fr Okt 8 13:11:19 CEST 2021
On 6.10.21, Werner LEMBERG wrote:
> >> Ich sehe einen deutlichen Vorteil, wenn wir weiter ein explizites
> >> Format für die Versionsverwaltung nutzen. Die Ersatzregeln des
> >> Kurzformats haben zu viele freie Parameter (zu viel "Magie") und
> >> Raum für Verbesserungen. Wenn wir das Kurzformat zur "Urliste"
> >> machen würden, wäre jede Änderung des Konversionsskripts mit einem
> >> riesen Patch für die Wortliste verbunden und die Prüfung auf
> >> korrekte Expansion von Neueinträgen ist auch schwerer.
> >
> > Das ist prinzipiell richtig, allerdings gehe ich davon aus, dass der
> > Prozess der Skriptverbesserung auf die Dauer konvergiert und die
> > nötigen Änderungen somit immer kleiner werden. Sobald die Skripte
> > hinreichend fortgeschritten sind, ist die Umstellung aus diesem
> > Gesichtspunkt vertretbar, meine ich.
> >
> > Die Prüfung auf korrekte Expansion ist ebenfalls ein berechtigter
> > Einwand, über den man sich Gedanken machen muss . Auch hier gilt
> > aber: Mit fortschreitendem Entwicklungsstand der Skripte werden
> > Fehler immer unwahrscheinlicher. Die Wortliste mit ihren gut
> > 500.000 Einträgen gibt ja schon einen recht guten Prüffall für
> > Konversionsskripte her.
> Was das Wortlistenformat angeht: Ich denke, wir sollten uns irgendwie
> in der Mitte treffen. Günters Argument bezüglich der Suche von
> Einträgen ist sehr gewichtig, vor allem für diejenigen, die nicht so
> mit Worttrennungen bewandert sind.
> >> Was ich mir gut vorstellen kann, ist ein aktualisiertes explizites
> >> Format mit 6 Spalten: 6-Felder-Format
> >>
> >> Vorteile:
> >>
> >> * weniger Spalten
> >> * einfache Zuordnung Spalte -- Sprachvariante
> >> * ähnlicher zum Kurzformat
> >> * einfachere Dokumentation
> >>
> >> Nachteile:
> >>
> >> * Arbeitsaufwand zur Anpassung der Skripte
> >> * Massiver "commit" bei Formatwandlung, "Historienverlust"
> >
> > ... ob die Vorteile die Nachteile wirklich überwiegen.
> Der Meinung bin ich auch. Eine Anpassung schaut nach sehr viel Arbeit
> aus, und wir sind uns noch nicht sicher, ob obiges unser endgültiges,
> neues Format werden wird.
> > Insgesamt bin ich bei der Thematik noch unentschieden. Für den
> > Moment würde ich dafür plädieren, die vorhandenen Kurzformate und
> > Konversionsskripte (umformatierung.py und beugung.lua) möglichst
> > intensiv zu erproben.
> Wir könnten probeweise ein neues git-Repositorium aufsetzen, welches
> auf dem Kurzformat basiert – aber bitte mit einer zusätzlichen
> 1. Spalte, welche das Wort ungetrennt enthält.
Dann brauchen wir allerdings auch verschiedene Zeilen bei verschiedener
Schreibung (daß/dass, Stofffetzen/Stoffetzen, ...).
Die Zusammenlegung der verschiedenen Schreibungen ist der aufwendigste
Teil der Konvertierung (was sowohl die Komplexität als auch die Laufzeit
des Skripts betrifft) aber spart nur 3,4% der Zeilen (502449 Zeilen in
wortliste werden 485 385).
Jedoch hilft sie beim Eintrag neuer Wörter, indem automatisch die
AR-Variante und die CH Variante dazukommen.
Ein Kurzformat-basiertes Format mit Index könnte dann in der Variante mit
automatischer Trennwandlung in Regelfällen geben. Dann ist der
Unterschied zu meinem Vorschlag nur noch die Kürzung von
Reste;Res-te;Re-ste
zu
Reste;Res-te
in (überschaubaren) 74 000 von 500 000 Zeilen.
Da finde ich die explizite Darstellung der Trennvarianten in der "Urliste"
besser, zumal wir neue Einträge weiterhin besser aus dem "ganz kurz format"
wandeln, damit kein ß, ss oder [mm/mm-m] vergessen wird.
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster