[Trennmuster] Arbeitslisten

Keno Wehr wehr at abgol.de
Mi Dez 2 16:28:02 CET 2020


Am 02.12.20 um 13:29 schrieb Guenter Milde:

> Ich habe aber noch einen anderen Vorschlag:
>
> Neben den Neueinträgen hat auch die Berücksichtigung von Wörtern in
> Umschrift in einer nicht unerheblichen Zahl von Fällen zu Regressionenen
> geführt.
>    Vor der nächsten Veröffentlichung von dehyph-exptl würde ich gern gezielt
> Wörter korrigieren, die mit v0.6 korrekt getrennt werden (ohne explizit in
> der wortliste zu sein) aber mit "master" nicht mehr.
>
> Im September hatte ich 15599 solche Einträge mit Abweichung der
> Standard-Trennstellen ermittelt. Nach Aussortieren von Ableitungen
> (`filter_wortliste -a`), blieben 8011 Abweichung der
> Standard-Trennstellen.  Ich denke, die Zahl dürfte aktuell in der
> gleichen Größenordnung liegen.
>
> Mein Vorschlag wäre, diese "Regressionsfälle" bevorzugt zu bearbeiten.
> Ich kann dazu entweder die Liste neu generieren und verteilen oder
> ein Rezept zum Nachbau zu Hause erstellen.

Sehr gern.

Zum konkreten Vorgehen hätte ich folgenden Vorschlag:
Es wird eine Liste noch zu bearbeitender Einträge (zunächst die von dir 
genannten 8000) im Repositorium abgelegt (zum Beispiel im Verzeichnis 
„zusatzlisten“).
Es wird ein Skript erstellt, das in der Lage ist, eine wählbare Anzahl 
(z. B. 100) zufällig gewählter Einträge aus dieser Liste zu entfernen 
und daraus eine Arbeitsliste in der bewährten Form zu erstellen, die 
dann von einem Bearbeiter manuell durchgearbeitet und in die große Liste 
eingepflegt wird.
Mit dem Commit der Neueinträge in der Wortliste wird die 
Neueintragsliste dann für alle gekürzt, sodass das Dublettenproblem 
entfällt und gleichzeitig der Arbeitsfortschritt für alle sichtbar wird.

Auf Dauer könnte die neue Liste dann immer wieder nachgefüttert werden. 
Es gibt sicher noch einige 10.000 Wörter, die dafür in Frage kommen und 
ohne großen Aufwand mit unterschiedlichen Methoden aufgefunden werden 
können.

Das wäre meines Erachtens ein flexibles Verfahren, bei dem jeder 
Wortlistenbearbeiter im Rahmen seiner Möglichkeiten und in seinem 
eigenen Rhythmus zur Erweiterung der Liste beitragen kann, ohne dass 
Interferenzen zu befürchten sind.

Gruß
Keno



Mehr Informationen über die Mailingliste Trennmuster