[Trennmuster] neuer Arbeitsansatz

Guenter Milde milde at users.sf.net
Mo Okt 24 17:19:53 CEST 2016


Liebe Trennmustler,

On 22.10.16, Werner LEMBERG wrote:


> Es gibt nun einen Zweig »wortlisten« im git-Repositorium, der einen
> neuen Ansatz zur Wortlistengenerierung bieten soll.  Die Grundidee
> ist, ausschließlich Wörter in reformierter Schreibweise zu speichern,
> und ein Skript erzeugt die anderen Trenn- und Wortformen.

> Eine solche Herangehensweise hat einige Vorteile.

>   1. Der Aufwand zur Einarbeitung neuer Wörter ist geringer, weil man
>      sich nur um eine Rechtschreibvariante kümmern muß.  Im Besonderen
>      reduziert die automatische Erzeugung der alternativen Wort- und
>      Trennformen manchmal nur schwer zu entdeckende Tippfehler.

Die Aufwandsverringerung und Enttippfehlerung ist nur für die manuelle
Pflege/Addition von Wörtern mit Varianten von Belang. Die automatische
Erzeugung kann genausogut bei der Einarbeitung aufgerufen werden.

>   2. Ich habe die Gelegenheit genutzt, die Eingabedaten in mehrere
>      Dateien aufzuspalten.  Das erleichtert und beschleunigt die
>      Arbeit mit git.  Im Besonderen ist der sehr hilfreiche Befehl
>      »git blame« jetzt benützbar, was bei der großen »wortliste«-Datei
>      nicht möglich ist, weil viel zu langsam.

Unabhängig von der ersten Änderung finde ich eien Aufteilung ungünstig, da
damit die Suche und schnelle Behebung kleiner Probleme deutlich aufwändiger
wird.

Übliches Szenario: ich sehe mir das Ergebnis eines Abgleichlaufes an und
möchte Wichtungskorrekturen vornehmen oder Kommentare hinzufügen. Bisher
konnte ich dies einfach in der "Orignal-Wortliste" tun. Jetzt müßte ich
dazu 62 Dateien durchforsten.

Blame könnte nutzbar werden, aber für alle existierenden Einträge wenig
hilfreich, da wir die Geschichte ja "wegschmeißen" und von Null anfangen.

>   3. In der neuen Form brauchen wir derzeit 7.5MByte für reformierte
>      Wortformen (rund 445k Einträge); die Ausnahmen betragen 76kByte
>      (1800 Einträge).  

Die Speicherplatzersparnis folgt aus der Weglassung des ungetrennten
Schlüssels.

> Bezogen auf die Anzahl der Einträge sind das
>      0.04% – meiner Meinung ist das sehr überschaubar.

Können die wenigstens in eine Datei statt in 26?


> Der einzige Nachteil ist, soweit ich das bisher überblicken kann, daß
> »wortliste« nun eine generierte Datei ist.  

Wie gut die Fehlerkontrolle der Automatik klappt wenn die wortliste nicht
mehr unter Versionskontrolle steht weiß ich nicht.


> Die Arbeitsweise ist ein bißchen anders.

...

Und was mache ich jetzt mit meinen 800 durchgesehenen Neueinträgen im alten
Stil und den 100 Korrekturen?

Günter



Mehr Informationen über die Mailingliste Trennmuster