[Trennmuster] neuer Arbeitsansatz

Werner LEMBERG wl at gnu.org
Di Okt 25 11:48:55 CEST 2016


>> [...] Ich bin trotzdem ein großer Fan von Redundanzvermeidung.  Was
>> automatisch generiert werden kann, soll auch automatisch generiert
>> werden und nicht im git-Repositorium sein.
> 
> Dem stimme ich bei zuverlässiger Generierung zu. Allerdings ist
> natürliche Sprache "ein weites Feld" (nicht konsistent, mehrdeutig,
> voller Ausnahmen) und da ist Redundanz eine wesentliche
> Voraussetzung zur Fehlererkennung.

Redundanz *beim Testen*, jawoll.

> Bei meinem Lang-S Skripten sehe ich das Problem der Konvertierung
> einfach (nur s) -> kompliziert (ſ und s).  Die Gegenrichtung ist
> trivial.  Ebenso wäre de-1901->de-1996 einfacher als
> de-1996->de-1901.  Andererseits ist die Verwendung einer veralteten
> Rechtschreibung als "Urtext" auch problematisch.

Nun ja, wir leben im Jahr 2016, und vielen Menschen ist die
reformierte Rechtschreibung bereits in Fleisch und Blut übergegangen –
oder sind nur mit ihr aufgewachsen.  Aus diesem Grund kann meiner
Meinung die traditionelle Variante nicht als Grundlage genommen
werden.

> Die obigen schwer zu entdeckenden "ss"-Ersatz-Fehler wurden erkannt,
> weil der Ist-Stand mit dem Skript-Output verglichen wurde.  Bei
> meinen "Helferlein" bin ich ebenfalls ständig am Basteln um
> Diskrepanzen zwischen gewolltem und tatsächlichem Ergebnis zu deuten
> und zu beheben -- mal ist es die Wortliste, mal sind es Fehler in
> meiner Logik.  In beiden Fällen brauchen wir die Redundanz.

Du hast meine volle Zustimmung!  Die Frage ist einzig und allein, ob
die Redundanz wirklich im git-Repositorium enthalten sein sollte.
Beispielsweise speichert man normalerweise auch nicht die erzeugten
Binärdateien eines Programms im git-Repositorium ab, da sie doch
generiert werden können.  Und trotzdem muß man mit der erzeugten
Applikation arbeiten, um Fehler oder Probleme zu erkennen, die dann im
Quellcode behoben werden.
 
> Ich müsste wahrscheinlich die git Aufrufe "wrappen" um bei mir eine
> Datei stehen zu haben. Alles in allem auf jeden Fall komplizierter
> als einfach
>  
>    xjed wortliste

Wie wär's mit einem Shell-Skript »xjedwl« folgenden Inhalts
(ungetestet).

  cat *.reformiert > ref
  cat *.ausnahmen > ausn
  cp ref ref.orig
  cp ausn ausn.orig

  xjed ref ausn

  if cmp ref.orig ref; then
    : # keine Änderung
  else
    rm *.reformiert && a-z.sh ref
  fi

  if cmp ausn.orig ausn; then
    : # keine Änderung
  else
    rm *.ausnahmen && a-z-ausnahmen.sh ausn
  fi

  rm ref ref.orig
  rm ausn ausn.orig

Damit hättest Du in Zukunft sogar noch weniger zu tippen :-)
Manche Editoren bieten sogar »Hooks« an, um ähnliche Skripte
automatisch beim Laden oder Speichern einer Datei auszuführen.
  
> Bisher sehe ich Fehler in der Automatik, wenn ich sie nicht sehe,
> dann siehst Du sie (danke), wenn keiner sie sieht hilft die
> Redundanz bei späterer Suche.
> 
> Bsp: 
> 
> * Das Wort Throm-bo<zy-ten=dys<tro-phie wird aus Versehen als
>
>     Throm-bo<zy-ten=dys-tro-phie eingegeben.
>
>   Fällt leichter auf, wenn daraus
>
>     Thrombozytendystrophie;-2-;Throm-bo<zy-ten=dy-stro-phie;Throm-bo<zy-ten=dys-tro-phie
>
>   wird.  Aber wer vergleicht dann noch die generierte Liste und
>   womit?
>   
> * Abkürzungen, Namen oder englische Fremdwörter mit "ss" am Silben-
>   oder Wortende werden transformiert, wenn sie nicht markiert sind.
>   Auch leichter zu übersehen, wenn das nur in der generierten Datei
>   passiert.

Vielleicht ein Mißverständnis.  *Natürlich* muß auch die erzeugte
»wortliste«-Datei kontrolliert werden!  Aus diesem Grund gibt's die
neuen Make-Ziele »wortliste« und »wortliste orig«.  Letzteres erzeugt
»wortliste« aus den momentanen Stand der »wortlisten/*«-Dateien und
»wortliste.orig« aus den »wortlisten/*«-Dateien vom letzten Commit.
Dann einfach »diff wortliste.orig wortliste« aufrufen (oder
»colordiff«, was ich sehr empfehle) und sich besonders die rot/grünen
Änderungen anschauen.

> Wir können natürlich entscheiden, dass etwaige Fehler in de-1901
> nicht so entscheidend sind wie die Vereinfachung der Arbeit und
> damit die Behebung einer deutlich größeren Fehlerzahl in der uns zur
> Verfügung stehenden Zeit durch Neueinträge.  Hab ich auch kein
> Problem mit, muss aber gesagt sein.

Also ich kann damit leben, wenn Du beispielsweise Dich bloß um
NR-Einträge kümmerst.  Verwende aber bitte dann mein
»erzeuge-wortliste«-Skript, das zu 99.95% korrekte Einträge für AR
generiert :-)

> Die meisten "ungültigen" Wörter machen bei der Worttrennung ja keine
> Probleme und das Leben wir leichter, wenn wir den Anspruch auf einen
> Korpus ohne ungültige de-1901 Wörter aufgeben.

Diesen Anspruch brauchen wir m.E. nicht aufzugeben, denn »viribus
unitis« kriegen wir das schon hin!


    Werner




Mehr Informationen über die Mailingliste Trennmuster