[Trennmuster] Experimente
Stephan Hennig
sh-list at posteo.net
So Okt 2 14:59:03 CEST 2016
Am 02.10.2016 um 14:37 schrieb Stephan Hennig:
> Es wäre sinnvoll, solche Experimente möglichst automatisiert zu
> fahren, so dass lediglich ein Skript aufgeführt werden muss.>
> [...]
>
> Zur Vermeidung von Verzerrungen sollten die zu vergleichenden
> Mustersätze folgendermaßen gebaut werden:
>
> * keine unterdrückten Trennstellen
> * neueste Änderungen der Trennung werden eingearbeitet
> * neueste entfernte Wörter werden entfernt
Die Mengen neuer, entfernter und geänderter Wörter lassen sich mit dem
Skript skripte/diff-patgen-input.sh ermitteln. Argumente sind zwei
Commits (das können beliebige Git-Revisionen sein, zum Beispiel auch
Tags). Mit
$./skripte/diff-patgen-input.sh dehyph-exptl-v0.40 master
erhält man ein Verzeichnis +++diff-patgen-input+++. In diesem findet
sich eine Datei CHANGES.table.txt, die die Änderungen zahlenmäßig
aufschlüsselt. Derzeit sieht das so aus
> Rechtschreibung hinzugefügt entfernt korrigiert
> ---------------------------------------------------------------
> traditionell (DE, AT) 20402 34 523
> traditionell (CH) 20414 34 521
> reformiert 20155 29 612
Diese Tabelle findet sich auch (un-)regelmäßig in den Ankündigungen des
Pakets dehyph-exptl.
Desweiteren enthält das Verzeichnis weitere Unterverzeichnisse für jede
Spachvarietät, welche wiederum Dateien mit den neuen, entfernten und
geänderten Wörtern enthält. Das Übertragen von Änderungen der Trennung
und entfernten Wörtern auf die Wortliste aus Tag "dehyph-exptl-v0.40",
wie in dem Experimententwurf beschrieben, sollte sich damit einigermaßen
automatisieren lassen.
Das als Hinweis für alle Experimentierfreudigen. Ich weiß nicht, wann
ich selbst zu solchen Experimenten komme. Zuvor hätte ich andere Dinge
zu tun, etwa die Schritte der Veröffentlichung von dehyph-exptl zu
dokumentieren. Das betrifft neben dem oben erwähnten Skript auch noch
ein weiteres Skript "podiff", so dass die Veröffentlichung neuer
Versionen nicht an mir hängt.
Viele Grüße,
Stephan Hennig
Mehr Informationen über die Mailingliste Trennmuster