[Trennmuster] Arbeitslisten
Keno Wehr
wehr at abgol.de
Mi Dez 2 16:28:02 CET 2020
Am 02.12.20 um 13:29 schrieb Guenter Milde:
> Ich habe aber noch einen anderen Vorschlag:
>
> Neben den Neueinträgen hat auch die Berücksichtigung von Wörtern in
> Umschrift in einer nicht unerheblichen Zahl von Fällen zu Regressionenen
> geführt.
> Vor der nächsten Veröffentlichung von dehyph-exptl würde ich gern gezielt
> Wörter korrigieren, die mit v0.6 korrekt getrennt werden (ohne explizit in
> der wortliste zu sein) aber mit "master" nicht mehr.
>
> Im September hatte ich 15599 solche Einträge mit Abweichung der
> Standard-Trennstellen ermittelt. Nach Aussortieren von Ableitungen
> (`filter_wortliste -a`), blieben 8011 Abweichung der
> Standard-Trennstellen. Ich denke, die Zahl dürfte aktuell in der
> gleichen Größenordnung liegen.
>
> Mein Vorschlag wäre, diese "Regressionsfälle" bevorzugt zu bearbeiten.
> Ich kann dazu entweder die Liste neu generieren und verteilen oder
> ein Rezept zum Nachbau zu Hause erstellen.
Sehr gern.
Zum konkreten Vorgehen hätte ich folgenden Vorschlag:
Es wird eine Liste noch zu bearbeitender Einträge (zunächst die von dir
genannten 8000) im Repositorium abgelegt (zum Beispiel im Verzeichnis
„zusatzlisten“).
Es wird ein Skript erstellt, das in der Lage ist, eine wählbare Anzahl
(z. B. 100) zufällig gewählter Einträge aus dieser Liste zu entfernen
und daraus eine Arbeitsliste in der bewährten Form zu erstellen, die
dann von einem Bearbeiter manuell durchgearbeitet und in die große Liste
eingepflegt wird.
Mit dem Commit der Neueinträge in der Wortliste wird die
Neueintragsliste dann für alle gekürzt, sodass das Dublettenproblem
entfällt und gleichzeitig der Arbeitsfortschritt für alle sichtbar wird.
Auf Dauer könnte die neue Liste dann immer wieder nachgefüttert werden.
Es gibt sicher noch einige 10.000 Wörter, die dafür in Frage kommen und
ohne großen Aufwand mit unterschiedlichen Methoden aufgefunden werden
können.
Das wäre meines Erachtens ein flexibles Verfahren, bei dem jeder
Wortlistenbearbeiter im Rahmen seiner Möglichkeiten und in seinem
eigenen Rhythmus zur Erweiterung der Liste beitragen kann, ohne dass
Interferenzen zu befürchten sind.
Gruß
Keno
Mehr Informationen über die Mailingliste Trennmuster