[Trennmuster] Arbeitslisten

Fr Dez 4 00:15:32 CET 2020

On  3.12.20, Werner LEMBERG wrote:
> >> Zum konkreten Vorgehen hätte ich folgenden Vorschlag: Es wird eine
> >> Liste noch zu bearbeitender Einträge (zunächst die von dir
> >> genannten 8000) im Repositorium abgelegt (zum Beispiel im
> >> Verzeichnis „zusatzlisten“).
> > 
> > Ich würde große temporäre Daten gern aus dem Repositorium fernhalten
> > - die brauchen wirklich nicht für alle Zeiten wiederauffindbar zu
> > sein.

> Ich sehe überhaupt kein Problem: Die Datei kommt in einen eigenen
> Zweig, und wenn dieser Zweig nicht mehr benötigt wird, löschen wir ihn
> einfach wieder.  Und da bleibt dann auch tatsächlich nichts zurück im
> Repositorium.

Gute Idee

> > Zur Arbeitsaufteilung schlage ich eine Verteilung nach
> > Anfangsbuchstaben vor.

> Ungern, ehrlich gesagt.  Ich finde es deutlich angenehmer und weniger
> fehleranfällig (weil weniger monoton), wenn zufällige Einträge
> extrahiert werden.  Mir gefällt Kenos Ansatz daher deutlich besser.

> Natürlich gilt hier: Wer sich die Arbeit macht, die Liste aufzuteilen
> und zu verteilen, der gibt auch vor, wie es funktioniert. :-)

Mein Vorschlag:

* Eine Liste mit Eintragskandidaten im neu zu erstellenden Zweig
  "eintragskandidaten".

  Vorschläge für Namen und Platz willkommen.

* Potentielle Bearbeiter verschieben sich ein "Arbeitspaket" in eine lokale
  Datei und aktualisieren die nun kleinere "Kandidatenliste" im Repo.
  Damit ist sind die reservierten Kandidaten für die anderen
  nicht mehr zu sehen (bevor sie dann nach Durchsicht und Korrekturen in der
  Wortliste auftauchen) und es kommt nicht zur Doppelarbeit.

* Ob jemand einen zusammenhängenden Block oder zufällig gewählte Einträge
  nehmen will ist freigestellt.

  Für zufällige Einträge gibt es 

    skripte/lib/py_wortliste/filter_wortliste -z 0.1 --restdatei der-Rest \
      > meine_Kandidaten

  Wobei nach -z die Wahrscheinlichkeit für die Zufallsauswahl anzugeben ist.

Ich habe eine "Kandidatenliste" mit 3636 Kandidaten erstellt, die

  * nicht in der Wortliste sind und
  * jetzt anders getrennt werden 

    - als in der letzten Version
    - als die Zerlegung in Teilwörter ergibt.

Viele Grüße
Günter

Anlage:

Analyse der Auswirkungen der Änderungen seit Version 0.5 (2019-04-04)
auf nicht in der Wortliste enthaltene Wörter.

german-vn3a.txt
  Stichprobe: 1 615 281 Wörter aus german.dic¹ vom 30.8.2020
  mit den Bedingungen:  

  * nicht in der Wortliste
  * nicht in den "Nichtwörtern"
  * länger als 3 Buchstaben ::

        ../../py_wortliste/filter_wortliste.py -vn3 german.dic > german-vn3.txt

  ¹https://sourceforge.net/p/germandict/code/HEAD/tree/german.dic

german-vn3a.txt
  Stichprobe: 610 559 Wörter aus german.dic¹ vom 30.8.2020
  mit den Bedingungen wie oben und

  * keine Ableitungen vorhandener Wörter (Reduktion auf 38%) ::

       ../../py_wortliste/filter_wortliste.py -vn3a \
       german.dic > german-vn3a.txt

    (oder ``filter_wortliste.py -vn3a german-vn3.txt``).

Neue patgen-Muster: 2020-12-03

changed-vn3a.txt
  23 410 Wörter mit gegenüber Version 0.5 veränderter patgen-Trennung
  (Standard-Trennstil)::

    ../../py_wortliste/hyphenate_diff.py -d 2019-04-04 \
      < german-vn3a.txt > changed-vn3a.txt

changed-vn3a-abgleich.txt
  Zerlegt durch Abgleich mit der Wortliste::

    ../../py_wortliste/abgleich_neueintraege.py -kv \
      < changed-vn3a.txt > changed-vn3a-abgleich.txt

  eindeutiger Zerlegungsvorschlag: 12167
  eindeutiger Zerlegungsvorschlag (andere Großschreibung): 2221
  alternative Zerlegungsvorschläge: 1144
  Rest: 8451

changed-vn3a-abgleich-eindeutig.txt
  Eindeutig zerlegt durch Abgleich mit der Wortliste::

    ../../py_wortliste/abgleich_neueintraege.py -kve \
      < changed-vn3a.txt > changed-vn3a-abgleich-eindeutig.txt

changed-vn3a-abgleich-hyph.txt
  Trennung mit patgen Mustern von 2020-12-03::

    ../../py_wortliste/hyphenate_neueintraege.py -k \
      < changed-vn3a-abgleich-eindeutig.txt > changed-vn3a-abgleich-hyph.txt

  8175 gleich (evt. Unterschiede in Wichtung/Unterdrückung)
    26 Abweichung bei suffix (">")
  1424 Abweichung bei fugen ("=")
  1127 Abweichung bei major ("=" und "<")
  3636 Abweichung der Standard-Trennstellen

changed-vn3a-abgleich-hyph-abweichung.txt
  Abweichende Standard-Trennung mit patgen Mustern von 2020-12-03::

    ../../py_wortliste/hyphenate_neueintraege.py -ka \
      < changed-vn3a-abgleich-eindeutig.txt > changed-vn3a-abgleich-hyph-abweichung.txt

  3636 Abweichung der Standard-Trennstellen

  Daran ist nun zu arbeiten...