[Trennmuster] neuer Arbeitsansatz
Werner LEMBERG
wl at gnu.org
Di Okt 25 08:04:02 CEST 2016
WARNING: This e-mail has been altered by MIMEDefang. Following this
paragraph are indications of the actual changes made. For more
information about your site's MIMEDefang policy, contact
MIMEDefang Administrator's Full Name <postmaster at dante.de>. For more information about MIMEDefang, see:
http://www.roaringpenguin.com/mimedefang/enduser.php3
An attachment of type text/plain, named a-z-ausnahmen.sh was removed from this document as it
constituted a security hazard. If you require this document, please contact
the sender and arrange an alternate means of receiving it.
-------------- nächster Teil --------------
>> 1. Der Aufwand zur Einarbeitung neuer Wörter ist geringer, weil man
>> sich nur um eine Rechtschreibvariante kümmern muß. Im
>> Besonderen reduziert die automatische Erzeugung der alternativen
>> Wort- und Trennformen manchmal nur schwer zu entdeckende
>> Tippfehler.
>
> Die Aufwandsverringerung und Enttippfehlerung ist nur für die
> manuelle Pflege/Addition von Wörtern mit Varianten von Belang.
Das stimmt so nicht. Ich habe beispielsweise Dutzende von Einträgen
mit »ss«-Ersatz korrigiert, wo die Felder nicht korrekt gesetzt waren
(also die falschen Felder ausgefüllt waren). Der Ansatz, den ich im
»erstelle-wortliste«-Skript gewählt habe, vermeidet das komplett;
unter der Prämisse, daß die Ableitungen regulär sind, setzt das
Programm *immer* die korrekten Felder.
> Die automatische Erzeugung kann genausogut bei der Einarbeitung
> aufgerufen werden.
Sicherlich. Ich bin trotzdem ein großer Fan von Redundanzvermeidung.
Was automatisch generiert werden kann, soll auch automatisch generiert
werden und nicht im git-Repositorium sein.
>> 2. Ich habe die Gelegenheit genutzt, die Eingabedaten in mehrere
>> Dateien aufzuspalten. Das erleichtert und beschleunigt die
>> Arbeit mit git. Im Besonderen ist der sehr hilfreiche Befehl
>> »git blame« jetzt benützbar, was bei der großen
>> »wortliste«-Datei nicht möglich ist, weil viel zu langsam.
>
> Unabhängig von der ersten Änderung finde ich eine Aufteilung
> ungünstig, da damit die Suche und schnelle Behebung kleiner Probleme
> deutlich aufwändiger wird.
>
> Übliches Szenario: ich sehe mir das Ergebnis eines Abgleichlaufes an
> und möchte Wichtungskorrekturen vornehmen oder Kommentare
> hinzufügen. Bisher konnte ich dies einfach in der
> "Orignal-Wortliste" tun. Jetzt müßte ich dazu 62 Dateien
> durchforsten.
Um mit einer einzigen Datei zu arbeiten: Wäre es tatsächlich ein
großes Problem, die Route
cat *.reformiert > ref
bearbeite »ref«
rm *.reformiert && a-z.sh ref
zu benützen? Den »cat«- und »rm/a-z«-Befehl könnte man in kleine
Skripten packen, um den Tippaufwand zu minimalisieren.
> Blame könnte nutzbar werden, aber für alle existierenden Einträge
> wenig hilfreich, da wir die Geschichte ja "wegschmeißen" und von
> Null anfangen.
Nicht unbedingt. Ich überlege ernsthaft, das gesamte Repositorium neu
zu generieren, wobei die alten Commits in aufgeteilte Dateien
überführt werden.
>> 3. In der neuen Form brauchen wir derzeit 7.5MByte für reformierte
>> Wortformen (rund 445k Einträge); die Ausnahmen betragen 76kByte
>> (1800 Einträge).
>
> Die Speicherplatzersparnis folgt aus der Weglassung des ungetrennten
> Schlüssels.
Natürlich ? die Größe in Megabytes ist fast gänzlich irrelevant; es
geht primär um die Anzahl der Zeilen pro Datei.
>> Bezogen auf die Anzahl der Einträge sind das
>> 0.04% ? meiner Meinung ist das sehr überschaubar.
>
> Können die wenigstens in eine Datei statt in 26?
Im Prinzip kein Problem. Ich hab's in erster Linie aus systematischen
Gründen aufgeteilt. Aber auch hier wäre
cat *.ausnahmen > ausnahmen
bearbeite »ausnahmen«
rm *.ausnahmen && a-z-ausnahmen.sh ausnahmen
ein möglicher Ansatz (das Skript »a-z-ausnahmen.sh« ist angehängt).
>> Der einzige Nachteil ist, soweit ich das bisher überblicken kann,
>> daß »wortliste« nun eine generierte Datei ist.
>
> Wie gut die Fehlerkontrolle der Automatik klappt wenn die wortliste
> nicht mehr unter Versionskontrolle steht weiß ich nicht.
Erklär bitte genauer, was Du meinst.
> Und was mache ich jetzt mit meinen 800 durchgesehenen Neueinträgen
> im alten Stil und den 100 Korrekturen?
Bitte ganz normal im Hauptzweig einbauen! Ich führe das anschließend
in meinen »wortlisten«-Zweig über. Solange wir uns nicht auf eine
gemeinsame Lösung geeinigt haben, will ich niemanden zum neuen Layout
zwingen. Natürlich wäre es schön, wenn Ihr alle die neue Arbeitsweise
mit den neuen und alten Helferlein ausprobieren könnt, damit Fehler
und Probleme ausgemerzt werden können :-)
Werner
Mehr Informationen über die Mailingliste Trennmuster