[Trennmuster] neuer Arbeitsansatz
Guenter Milde
milde at users.sf.net
Di Okt 25 09:06:25 CEST 2016
Lieber Werner,
hab Dank für die schnelle und konstruktive Antwort.
On 25.10.16, Werner LEMBERG wrote:
> >> 1. Der Aufwand zur Einarbeitung neuer Wörter ist geringer, weil man
> >> sich nur um eine Rechtschreibvariante kümmern muß. Im
> >> Besonderen reduziert die automatische Erzeugung der alternativen
> >> Wort- und Trennformen manchmal nur schwer zu entdeckende
> >> Tippfehler.
> >
> > Die Aufwandsverringerung und Enttippfehlerung ist nur für die
> > manuelle Pflege/Addition von Wörtern mit Varianten von Belang.
> Das stimmt so nicht. Ich habe beispielsweise Dutzende von Einträgen
> mit »ss«-Ersatz korrigiert, wo die Felder nicht korrekt gesetzt waren
> (also die falschen Felder ausgefüllt waren). Der Ansatz, den ich im
> »erstelle-wortliste«-Skript gewählt habe, vermeidet das komplett;
> unter der Prämisse, daß die Ableitungen regulär sind, setzt das
> Programm *immer* die korrekten Felder.
> > Die automatische Erzeugung kann genausogut bei der Einarbeitung
> > aufgerufen werden.
> Sicherlich. Ich bin trotzdem ein großer Fan von Redundanzvermeidung.
> Was automatisch generiert werden kann, soll auch automatisch generiert
> werden und nicht im git-Repositorium sein.
Dem stimme ich bei zuverlässiger Generierung zu. Allerdings ist natürliche
Sprache "ein weites Feld" (nicht konsistent, mehrdeutig, voller Ausnahmen)
und da ist Redundanz eine wesentliche Voraussetzung zur Fehlererkennung.
Bei meinem Lang-S Skripten sehe ich das Problem der Konvertierung
einfach (nur s) -> kompliziert (ſ und s). Die Gegenrichtung ist trivial.
Ebenso wäre de-1901->de-1996 einfacher als de-1996->de-1901.
Andererseits ist die Verwendung einer veralteten Rechtschreibung als
"Urtext" auch problematisch.
Die obigen schwer zu entdeckenden "ss"-Ersatz-Fehler wurden erkannt, weil
der Ist-Stand mit dem Skript-Output verglichen wurde.
Bei meinen "Helferlein" bin ich ebenfalls ständig am Basteln um Diskrepanzen
zwischen gewolltem und tatsächlichem Ergebnis zu deuten und zu beheben --
mal ist es die Wortliste, mal sind es Fehler in meiner Logik.
In beiden Fällen brauchen wir die Redundanz.
> >> 2. Ich habe die Gelegenheit genutzt, die Eingabedaten in mehrere
> >> Dateien aufzuspalten. Das erleichtert und beschleunigt die
> >> Arbeit mit git. Im Besonderen ist der sehr hilfreiche Befehl
> >> »git blame« jetzt benützbar, was bei der großen
> >> »wortliste«-Datei nicht möglich ist, weil viel zu langsam.
> >
> > Unabhängig von der ersten Änderung finde ich eine Aufteilung
> > ungünstig, da damit die Suche und schnelle Behebung kleiner Probleme
> > deutlich aufwändiger wird.
> >
> > Übliches Szenario: ich sehe mir das Ergebnis eines Abgleichlaufes an
> > und möchte Wichtungskorrekturen vornehmen oder Kommentare
> > hinzufügen. Bisher konnte ich dies einfach in der
> > "Orignal-Wortliste" tun. Jetzt müßte ich dazu 62 Dateien
> > durchforsten.
> Um mit einer einzigen Datei zu arbeiten: Wäre es tatsächlich ein
> großes Problem, die Route
> cat *.reformiert > ref
> bearbeite »ref«
> rm *.reformiert && a-z.sh ref
> zu benützen? Den »cat«- und »rm/a-z«-Befehl könnte man in kleine
> Skripten packen, um den Tippaufwand zu minimalisieren.
Ich müsste wahrscheinlich die git Aufrufe "wrappen" um bei mir eine Datei
stehen zu haben. Alles in allem auf jeden Fall komplizierter als einfach
xjed worliste
.
...
> > Wie gut die Fehlerkontrolle der Automatik klappt wenn die wortliste
> > nicht mehr unter Versionskontrolle steht weiß ich nicht.
> Erklär bitte genauer, was Du meinst.
Bisher sehe ich Fehler in der Automatik, wenn ich sie nicht sehe, dann
siehst Du sie (danke), wenn keiner sie sieht hilft die Redundanz bei
späterer Suche.
Bsp:
* Das Wort Throm-bo<zy-ten=dys<tro-phie wird aus Versehen als
Throm-bo<zy-ten=dys-tro-phie eingegeben.
Fällt leichter auf, wenn daraus
Thrombozytendystrophie;-2-;Throm-bo<zy-ten=dy-stro-phie;Throm-bo<zy-ten=dys-tro-phie
wird. Aber wer vergleicht dann noch die generierte Liste und womit?
* Abkürzungen, Namen oder englische Fremdwörter mit "ss" am Silben- oder
Wortende werden transformiert, wenn sie nicht markiert sind.
Auch leichter zu übersehen, wenn das nur in der generierten Datei passiert.
Wir können natürlich entscheiden, dass etwaige Fehler in de-1901 nicht so
entscheidend sind wie die Vereinfachung der Arbeit und damit die Behebung
einer deutlich größeren Fehlerzahl in der uns zur Verfügung stehenden
Zeit durch Neueinträge. Hab ich auch kein Problem mit, muss aber gesagt
sein. Die meisten "ungültigen" Wörter machen bei der Worttrennung ja
keine Probleme und das Leben wir leichter, wenn wir den Anspruch auf
einen Korpus ohne ungültige de-1901 Wörter aufgeben.
> > Und was mache ich jetzt mit meinen 800 durchgesehenen Neueinträgen
> > im alten Stil und den 100 Korrekturen?
> Bitte ganz normal im Hauptzweig einbauen!
OK.
Günter
Mehr Informationen über die Mailingliste Trennmuster