[Trennmuster] Wortlisten-Formate

Werner LEMBERG wl at gnu.org
Mi Okt 6 10:42:45 CEST 2021


>> Ich sehe einen deutlichen Vorteil, wenn wir weiter ein explizites
>> Format für die Versionsverwaltung nutzen.  Die Ersatzregeln des
>> Kurzformats haben zu viele freie Parameter (zu viel "Magie") und
>> Raum für Verbesserungen.  Wenn wir das Kurzformat zur "Urliste"
>> machen würden, wäre jede Änderung des Konversionsskripts mit einem
>> riesen Patch für die Wortliste verbunden und die Prüfung auf
>> korrekte Expansion von Neueinträgen ist auch schwerer.
>
> Das ist prinzipiell richtig, allerdings gehe ich davon aus, dass der
> Prozess der Skriptverbesserung auf die Dauer konvergiert und die
> nötigen Änderungen somit immer kleiner werden.  Sobald die Skripte
> hinreichend fortgeschritten sind, ist die Umstellung aus diesem
> Gesichtspunkt vertretbar, meine ich.
>
> Die Prüfung auf korrekte Expansion ist ebenfalls ein berechtigter
> Einwand, über den man sich Gedanken machen muss . Auch hier gilt
> aber: Mit fortschreitendem Entwicklungsstand der Skripte werden
> Fehler immer unwahrscheinlicher.  Die Wortliste mit ihren gut
> 500.000 Einträgen gibt ja schon einen recht guten Prüffall für
> Konversionsskripte her.

Was das Wortlistenformat angeht: Ich denke, wir sollten uns irgendwie
in der Mitte treffen.  Günters Argument bezüglich der Suche von
Einträgen ist sehr gewichtig, vor allem für diejenigen, die nicht so
mit Worttrennungen bewandert sind.

>> Was ich mir gut vorstellen kann, ist ein aktualisiertes explizites
>> Format mit 6 Spalten: 6-Felder-Format
>>
>> Vorteile:
>>
>> * weniger Spalten
>> * einfache Zuordnung Spalte -- Sprachvariante
>> * ähnlicher zum Kurzformat
>> * einfachere Dokumentation
>>
>> Nachteile:
>>
>> * Arbeitsaufwand zur Anpassung der Skripte
>> * Massiver "commit" bei Formatwandlung, "Historienverlust"
>
> ... ob die Vorteile die Nachteile wirklich überwiegen.

Der Meinung bin ich auch.  Eine Anpassung schaut nach sehr viel Arbeit
aus, und wir sind uns noch nicht sicher, ob obiges unser endgültiges,
neues Format werden wird.

> Insgesamt bin ich bei der Thematik noch unentschieden.  Für den
> Moment würde ich dafür plädieren, die vorhandenen Kurzformate und
> Konversionsskripte (umformatierung.py und beugung.lua) möglichst
> intensiv zu erproben.

Wir könnten probeweise ein neues git-Repositorium aufsetzen, welches
auf dem Kurzformat basiert – aber bitte mit einer zusätzlichen
1. Spalte, welche das Wort ungetrennt enthält.  Ich könnte mir sogar
vorstellen, daß man ein Skript schreibt, um möglichst viele Commits
des jetztigen Repositoriums mitzunehmen, z.B. startend mit Einträgen
von vor einem Jahr.  Dann kann man sich die Repositorien anschauen und
vergleichen, was mit den Einträgen geschieht.

Bezüglich Historienverlust: Aufgrund der Größe unserer
»wortlisten«-Datei funktioniert der normalerweise so hilfreiche Befehl
»git blame« elendiglich schlecht; es dauert leider ewig (trotz einiger
Verbesserungen vor zwei Jahren in git Version 2.22), bis Resultate
angezeigt werden.  Ich sehe also kein so großes Problem, wenn wir auch
»offiziell« bei Gelegenheit zu einem neuen Repositorium wechseln, um
uns zu verschlanken.


    Werner




Mehr Informationen über die Mailingliste Trennmuster