[Trennmuster] Python-Skript wortzerlegung.py

Werner LEMBERG wl at gnu.org
So Okt 18 07:06:50 CEST 2020


>> Ich will schon seit Jahren das Repositorium neu aufsetzen, in dem
>> die Wortliste nicht mehr als ein ganzes, sondern nach Buchstaben
>> getrennt aufgesetzt ist.
> 
> Das haben wir ja vor ein paar Jahren schon durchprobiert. Hat sich
> (zumindest für mich) nicht bewährt, weil die Arbeit an der Wortliste
> damit noch viel komplizierter wird weil z.B. die Korrektur der
> Endungsauszeichung für alle Zusammensetzugen mit "-schaft" dann eben
> zur Arbeit an 26 Wortlisten wird.  Auch die Suche nach einem Eintrag
> geht dann nicht mehr so einfach im Editor sondern nur noch mit grep.

Das wäre alles handhabbar, wenn wir z.B. kleine Skripts für »git
pull«, »git push« und »git diff« bereitstellten, welche die Liste
ad-hoc zerlegen bzw. zusammenbauen.  Du würdest nach wie vor mit der
Gesamtliste arbeiten.

> Ich möchte mich nicht aus rein technischen sondern aus
> praktischen/menschlichen Gründen beschränken.  Ein großer Teil der
> Arbeit an der Wortliste ist "Handarbeit" (ggf. mit Werkzeug aber
> dennoch mit "Beaufsichtigung" bzw. nicht automatisierter
> Qualitätkontrolle).

Ja, und das finde ich teilweise gut, weil so immer wieder Fehler
entdeckt und behoben werden.

> Einträge die die Qualität der Trennmuster nicht beeinflussen sind
> halt nicht einfach nur egal, denn sie machen die Pflege der
> Wortliste aufwendiger (das fängt schon bei der Durchsicht der
> neuesten Commits mit "neue einfachen Komposita" an).

Aber Commits werden *immer* durchgeschaut werden müssen!  Ich sehe
jetzt nicht, was das mit der Diskussion über Aufteilung in kleinere
Dateien zu tun hat.

> Insofern plädiere ich dafür das Ziel eine (möglichst) vollständige
> Liste der Wörter und Wortformen der deutschen Gegenwartssprache zu
> erstellen zu streichen.

Naja.  Wir ergänzen halt, was nicht richtig getrennt wird.

> Mein Ziel ist eine "intelligent gewählte" Stichprobe der Wörter und
> Wortformen, welche nach Verarbeitung mit patgen (möglichst) alle
> Wörter und Wortformen korrekt trennt.

Das haben wir schon öfters diskutiert, und bis jetzt gibt's keinen
Beweis, daß dieses Ziel einer »intelligent gewählten Stichprobe«
überhaupt möglich ist!  Ich behaupte, aufgrund meiner Erfahrung, daß
es *nicht* möglich ist.


    Werner




Mehr Informationen über die Mailingliste Trennmuster