[Trennmuster] neuer Arbeitsansatz
Werner LEMBERG
wl at gnu.org
Di Okt 25 11:48:55 CEST 2016
>> [...] Ich bin trotzdem ein großer Fan von Redundanzvermeidung. Was
>> automatisch generiert werden kann, soll auch automatisch generiert
>> werden und nicht im git-Repositorium sein.
>
> Dem stimme ich bei zuverlässiger Generierung zu. Allerdings ist
> natürliche Sprache "ein weites Feld" (nicht konsistent, mehrdeutig,
> voller Ausnahmen) und da ist Redundanz eine wesentliche
> Voraussetzung zur Fehlererkennung.
Redundanz *beim Testen*, jawoll.
> Bei meinem Lang-S Skripten sehe ich das Problem der Konvertierung
> einfach (nur s) -> kompliziert (ſ und s). Die Gegenrichtung ist
> trivial. Ebenso wäre de-1901->de-1996 einfacher als
> de-1996->de-1901. Andererseits ist die Verwendung einer veralteten
> Rechtschreibung als "Urtext" auch problematisch.
Nun ja, wir leben im Jahr 2016, und vielen Menschen ist die
reformierte Rechtschreibung bereits in Fleisch und Blut übergegangen –
oder sind nur mit ihr aufgewachsen. Aus diesem Grund kann meiner
Meinung die traditionelle Variante nicht als Grundlage genommen
werden.
> Die obigen schwer zu entdeckenden "ss"-Ersatz-Fehler wurden erkannt,
> weil der Ist-Stand mit dem Skript-Output verglichen wurde. Bei
> meinen "Helferlein" bin ich ebenfalls ständig am Basteln um
> Diskrepanzen zwischen gewolltem und tatsächlichem Ergebnis zu deuten
> und zu beheben -- mal ist es die Wortliste, mal sind es Fehler in
> meiner Logik. In beiden Fällen brauchen wir die Redundanz.
Du hast meine volle Zustimmung! Die Frage ist einzig und allein, ob
die Redundanz wirklich im git-Repositorium enthalten sein sollte.
Beispielsweise speichert man normalerweise auch nicht die erzeugten
Binärdateien eines Programms im git-Repositorium ab, da sie doch
generiert werden können. Und trotzdem muß man mit der erzeugten
Applikation arbeiten, um Fehler oder Probleme zu erkennen, die dann im
Quellcode behoben werden.
> Ich müsste wahrscheinlich die git Aufrufe "wrappen" um bei mir eine
> Datei stehen zu haben. Alles in allem auf jeden Fall komplizierter
> als einfach
>
> xjed wortliste
Wie wär's mit einem Shell-Skript »xjedwl« folgenden Inhalts
(ungetestet).
cat *.reformiert > ref
cat *.ausnahmen > ausn
cp ref ref.orig
cp ausn ausn.orig
xjed ref ausn
if cmp ref.orig ref; then
: # keine Änderung
else
rm *.reformiert && a-z.sh ref
fi
if cmp ausn.orig ausn; then
: # keine Änderung
else
rm *.ausnahmen && a-z-ausnahmen.sh ausn
fi
rm ref ref.orig
rm ausn ausn.orig
Damit hättest Du in Zukunft sogar noch weniger zu tippen :-)
Manche Editoren bieten sogar »Hooks« an, um ähnliche Skripte
automatisch beim Laden oder Speichern einer Datei auszuführen.
> Bisher sehe ich Fehler in der Automatik, wenn ich sie nicht sehe,
> dann siehst Du sie (danke), wenn keiner sie sieht hilft die
> Redundanz bei späterer Suche.
>
> Bsp:
>
> * Das Wort Throm-bo<zy-ten=dys<tro-phie wird aus Versehen als
>
> Throm-bo<zy-ten=dys-tro-phie eingegeben.
>
> Fällt leichter auf, wenn daraus
>
> Thrombozytendystrophie;-2-;Throm-bo<zy-ten=dy-stro-phie;Throm-bo<zy-ten=dys-tro-phie
>
> wird. Aber wer vergleicht dann noch die generierte Liste und
> womit?
>
> * Abkürzungen, Namen oder englische Fremdwörter mit "ss" am Silben-
> oder Wortende werden transformiert, wenn sie nicht markiert sind.
> Auch leichter zu übersehen, wenn das nur in der generierten Datei
> passiert.
Vielleicht ein Mißverständnis. *Natürlich* muß auch die erzeugte
»wortliste«-Datei kontrolliert werden! Aus diesem Grund gibt's die
neuen Make-Ziele »wortliste« und »wortliste orig«. Letzteres erzeugt
»wortliste« aus den momentanen Stand der »wortlisten/*«-Dateien und
»wortliste.orig« aus den »wortlisten/*«-Dateien vom letzten Commit.
Dann einfach »diff wortliste.orig wortliste« aufrufen (oder
»colordiff«, was ich sehr empfehle) und sich besonders die rot/grünen
Änderungen anschauen.
> Wir können natürlich entscheiden, dass etwaige Fehler in de-1901
> nicht so entscheidend sind wie die Vereinfachung der Arbeit und
> damit die Behebung einer deutlich größeren Fehlerzahl in der uns zur
> Verfügung stehenden Zeit durch Neueinträge. Hab ich auch kein
> Problem mit, muss aber gesagt sein.
Also ich kann damit leben, wenn Du beispielsweise Dich bloß um
NR-Einträge kümmerst. Verwende aber bitte dann mein
»erzeuge-wortliste«-Skript, das zu 99.95% korrekte Einträge für AR
generiert :-)
> Die meisten "ungültigen" Wörter machen bei der Worttrennung ja keine
> Probleme und das Leben wir leichter, wenn wir den Anspruch auf einen
> Korpus ohne ungültige de-1901 Wörter aufgeben.
Diesen Anspruch brauchen wir m.E. nicht aufzugeben, denn »viribus
unitis« kriegen wir das schon hin!
Werner
Mehr Informationen über die Mailingliste Trennmuster