[Trennmuster] Experimente

Stephan Hennig sh-list at posteo.net
So Okt 2 14:59:03 CEST 2016


Am 02.10.2016 um 14:37 schrieb Stephan Hennig:

> Es wäre sinnvoll, solche Experimente möglichst automatisiert zu
> fahren, so dass lediglich ein Skript aufgeführt werden muss.>
> [...]
> 
> Zur Vermeidung von Verzerrungen sollten die zu vergleichenden
> Mustersätze folgendermaßen gebaut werden:
> 
> * keine unterdrückten Trennstellen
> * neueste Änderungen der Trennung werden eingearbeitet
> * neueste entfernte Wörter werden entfernt

Die Mengen neuer, entfernter und geänderter Wörter lassen sich mit dem
Skript skripte/diff-patgen-input.sh ermitteln.  Argumente sind zwei
Commits (das können beliebige Git-Revisionen sein, zum Beispiel auch
Tags).  Mit

  $./skripte/diff-patgen-input.sh dehyph-exptl-v0.40 master

erhält man ein Verzeichnis +++diff-patgen-input+++.  In diesem findet
sich eine Datei CHANGES.table.txt, die die Änderungen zahlenmäßig
aufschlüsselt.  Derzeit sieht das so aus

>       Rechtschreibung         hinzugefügt   entfernt   korrigiert
>     ---------------------------------------------------------------
>       traditionell (DE, AT)         20402         34          523
>       traditionell (CH)             20414         34          521
>       reformiert                    20155         29          612

Diese Tabelle findet sich auch (un-)regelmäßig in den Ankündigungen des
Pakets dehyph-exptl.

Desweiteren enthält das Verzeichnis weitere Unterverzeichnisse für jede
Spachvarietät, welche wiederum Dateien mit den neuen, entfernten und
geänderten Wörtern enthält.  Das Übertragen von Änderungen der Trennung
und entfernten Wörtern auf die Wortliste aus Tag "dehyph-exptl-v0.40",
wie in dem Experimententwurf beschrieben, sollte sich damit einigermaßen
automatisieren lassen.

Das als Hinweis für alle Experimentierfreudigen.  Ich weiß nicht, wann
ich selbst zu solchen Experimenten komme.  Zuvor hätte ich andere Dinge
zu tun, etwa die Schritte der Veröffentlichung von dehyph-exptl zu
dokumentieren.  Das betrifft neben dem oben erwähnten Skript auch noch
ein weiteres Skript "podiff", so dass die Veröffentlichung neuer
Versionen nicht an mir hängt.

Viele Grüße,
Stephan Hennig




Mehr Informationen über die Mailingliste Trennmuster