[Trennmuster] Python-Skript wortzerlegung.py

Mo Okt 19 21:18:29 CEST 2020

On 19.10.20, Werner LEMBERG wrote:

> >> Das wäre alles handhabbar, wenn wir z.B. kleine Skripts für »git
> >> pull«, »git push« und »git diff« bereitstellten, welche die Liste
> >> ad-hoc zerlegen bzw. zusammenbauen.  Du würdest nach wie vor mit
> >> der Gesamtliste arbeiten.
> > 
> > Ich hätte dann statt langer `git blame` Laufzeiten lange `git
> > commit` und `git pull` Laufzeiten

> Ich denke, das wäre unmerklich (geschätzt < 0.5s).

OK

> > und deutliche Schwierigkeiten mit `git diff`.

> Wieso?

Weil ich, wenn ich dann 3 bis 4 Formate habe (1 Datei Langformat, kleine
Dateien Langformat, 1 Datei Kurzformat, kleine Dateien Kurzformat), an
denen gearbeitet werden kann und wo zu entscheiden ist, welches das
aktuellste ist aber nur "kleine Dateien Kurzformat" kann über git diff mit
dem Repositorium verglichen werden.

> >> Naja.  Wir ergänzen halt, was nicht richtig getrennt wird.
> > 
> > Wenn es nur das wäre. Aber wir ergänzen eben auch Nebenformen und
> > gebeugte Adjektive wenn eine Ergänzung selbige mit korrigieren
> > würde.

> Das haben wir doch schon besprochen: Sobald Nebenformen automatisch
> erzeugt werden können, fällt dies weg.

Und bis dahin ist es im Weg. Ich komme jedenfalls mit der Zweitkontrolle von
neuen Eintragsschüben nicht mehr hinterher.

Und mit automatischen Nebenformen bekommen wir 4 neue Varianten -- die 4
obgenannten dann jeweils in "Nebenformen explizit" und "Nebenformen
automatisch". Da den Überblick zu behalten, welche Änderungen von wo die
aktuellen sind und andere überschreiben dürfen wird eine Herausforderung.

> >> Das haben wir schon öfters diskutiert, und bis jetzt gibt's keinen
> >> Beweis, daß dieses Ziel einer »intelligent gewählten Stichprobe«
> >> überhaupt möglich ist!  Ich behaupte, aufgrund meiner Erfahrung,
> >> daß es *nicht* möglich ist.
> > 
> > Es konnte gezeigt werden, dass in den letzten Monaten jeder Neueintrag mehr
> > als eine Fehltrennung korrigiert hat:
> > 
> >    Datum    Einträge  Abweichungen Standard    relativ
> >    ======   ========  =====================    =======
> >    28.05.   482680    29 996                   2,5%
> >              +2123    -3 082
> >    24.06.   484803    26 914
> >               +282    -1 050
> >    26.06.   485086    25 864 		    2,1%
> >                 +0¹   +2 328
> >    28.06.   485086    28 192		    2,3%
> >    	          +592    -1 681
> >    01.07    485678    26 511		    2,24%
> >    
> >    ¹ aber zusätzlich 94 000 Wörter in Umschrift

> Ich denke, das ist deswegen so, weil ich mich mit meinen Commits auf
> *einfache* Komposita beschränkt habe.  Komposita mit mehr als zwei
> Komponenten werden entsprechend besser getrennt.

Ich denke allerdings, es ist vor allem deswegen so, weil ich gezielt nach
falsch getrennten Wörtern gesucht habe und jeweils nur die Stammform oder
noch eine Ableitung mit Umlaut eingetragen habe.

Viele Grüße
Günter