[Trennmuster] Arbeitslisten
Guenter Milde
milde at users.sf.net
Fr Dez 4 00:15:32 CET 2020
On 3.12.20, Werner LEMBERG wrote:
> >> Zum konkreten Vorgehen hätte ich folgenden Vorschlag: Es wird eine
> >> Liste noch zu bearbeitender Einträge (zunächst die von dir
> >> genannten 8000) im Repositorium abgelegt (zum Beispiel im
> >> Verzeichnis „zusatzlisten“).
> >
> > Ich würde große temporäre Daten gern aus dem Repositorium fernhalten
> > - die brauchen wirklich nicht für alle Zeiten wiederauffindbar zu
> > sein.
> Ich sehe überhaupt kein Problem: Die Datei kommt in einen eigenen
> Zweig, und wenn dieser Zweig nicht mehr benötigt wird, löschen wir ihn
> einfach wieder. Und da bleibt dann auch tatsächlich nichts zurück im
> Repositorium.
Gute Idee
> > Zur Arbeitsaufteilung schlage ich eine Verteilung nach
> > Anfangsbuchstaben vor.
> Ungern, ehrlich gesagt. Ich finde es deutlich angenehmer und weniger
> fehleranfällig (weil weniger monoton), wenn zufällige Einträge
> extrahiert werden. Mir gefällt Kenos Ansatz daher deutlich besser.
> Natürlich gilt hier: Wer sich die Arbeit macht, die Liste aufzuteilen
> und zu verteilen, der gibt auch vor, wie es funktioniert. :-)
Mein Vorschlag:
* Eine Liste mit Eintragskandidaten im neu zu erstellenden Zweig
"eintragskandidaten".
Vorschläge für Namen und Platz willkommen.
* Potentielle Bearbeiter verschieben sich ein "Arbeitspaket" in eine lokale
Datei und aktualisieren die nun kleinere "Kandidatenliste" im Repo.
Damit ist sind die reservierten Kandidaten für die anderen
nicht mehr zu sehen (bevor sie dann nach Durchsicht und Korrekturen in der
Wortliste auftauchen) und es kommt nicht zur Doppelarbeit.
* Ob jemand einen zusammenhängenden Block oder zufällig gewählte Einträge
nehmen will ist freigestellt.
Für zufällige Einträge gibt es
skripte/lib/py_wortliste/filter_wortliste -z 0.1 --restdatei der-Rest \
> meine_Kandidaten
Wobei nach -z die Wahrscheinlichkeit für die Zufallsauswahl anzugeben ist.
Ich habe eine "Kandidatenliste" mit 3636 Kandidaten erstellt, die
* nicht in der Wortliste sind und
* jetzt anders getrennt werden
- als in der letzten Version
- als die Zerlegung in Teilwörter ergibt.
Viele Grüße
Günter
Anlage:
Analyse der Auswirkungen der Änderungen seit Version 0.5 (2019-04-04)
auf nicht in der Wortliste enthaltene Wörter.
german-vn3a.txt
Stichprobe: 1 615 281 Wörter aus german.dic¹ vom 30.8.2020
mit den Bedingungen:
* nicht in der Wortliste
* nicht in den "Nichtwörtern"
* länger als 3 Buchstaben ::
../../py_wortliste/filter_wortliste.py -vn3 german.dic > german-vn3.txt
¹https://sourceforge.net/p/germandict/code/HEAD/tree/german.dic
german-vn3a.txt
Stichprobe: 610 559 Wörter aus german.dic¹ vom 30.8.2020
mit den Bedingungen wie oben und
* keine Ableitungen vorhandener Wörter (Reduktion auf 38%) ::
../../py_wortliste/filter_wortliste.py -vn3a \
german.dic > german-vn3a.txt
(oder ``filter_wortliste.py -vn3a german-vn3.txt``).
Neue patgen-Muster: 2020-12-03
changed-vn3a.txt
23 410 Wörter mit gegenüber Version 0.5 veränderter patgen-Trennung
(Standard-Trennstil)::
../../py_wortliste/hyphenate_diff.py -d 2019-04-04 \
< german-vn3a.txt > changed-vn3a.txt
changed-vn3a-abgleich.txt
Zerlegt durch Abgleich mit der Wortliste::
../../py_wortliste/abgleich_neueintraege.py -kv \
< changed-vn3a.txt > changed-vn3a-abgleich.txt
eindeutiger Zerlegungsvorschlag: 12167
eindeutiger Zerlegungsvorschlag (andere Großschreibung): 2221
alternative Zerlegungsvorschläge: 1144
Rest: 8451
changed-vn3a-abgleich-eindeutig.txt
Eindeutig zerlegt durch Abgleich mit der Wortliste::
../../py_wortliste/abgleich_neueintraege.py -kve \
< changed-vn3a.txt > changed-vn3a-abgleich-eindeutig.txt
changed-vn3a-abgleich-hyph.txt
Trennung mit patgen Mustern von 2020-12-03::
../../py_wortliste/hyphenate_neueintraege.py -k \
< changed-vn3a-abgleich-eindeutig.txt > changed-vn3a-abgleich-hyph.txt
8175 gleich (evt. Unterschiede in Wichtung/Unterdrückung)
26 Abweichung bei suffix (">")
1424 Abweichung bei fugen ("=")
1127 Abweichung bei major ("=" und "<")
3636 Abweichung der Standard-Trennstellen
changed-vn3a-abgleich-hyph-abweichung.txt
Abweichende Standard-Trennung mit patgen Mustern von 2020-12-03::
../../py_wortliste/hyphenate_neueintraege.py -ka \
< changed-vn3a-abgleich-eindeutig.txt > changed-vn3a-abgleich-hyph-abweichung.txt
3636 Abweichung der Standard-Trennstellen
Daran ist nun zu arbeiten...
Mehr Informationen über die Mailingliste Trennmuster