[Trennmuster] Python-Skript wortzerlegung.py

Sa Okt 17 12:36:09 CEST 2020

On 17.10.20, Werner LEMBERG wrote:

> >> Da mußt Du aber seehr viel Geduld haben – `git blame` funktioniert
> >> ganz schlecht mit so großen Dateien wie »wortliste«.
> >
> > Das ist der Punkt, wieso ich gegen die Aufnahme aller Ableitungen
> > von zusammengesetzten Wörtern bin.  Die Größe der "wortliste" in MB
> > ist kein Problem für moderne Speichermedien aber bei der Arbeit mit
> > dem Werk gibt es Wartezeiten, sei es nun git, eines meiner
> > Python-Skripte oder andere schlecht skalierende
> > Verarbeitungsautomatiken oder die mühselige Aufgabe eine
> > Auszeichnungsänderung für alle betroffenen (aber nicht alle auf den
> > regulären Suchausdruck passenden) Wörter anzuwenden...

> Ich will schon seit Jahren das Repositorium neu aufsetzen, in dem die
> Wortliste nicht mehr als ein ganzes, sondern nach Buchstaben getrennt
> aufgesetzt ist. 

Das haben wir ja vor ein paar Jahren schon durchprobiert. Hat sich
(zumindest für mich) nicht bewährt, weil die Arbeit an der Wortliste
damit noch viel komplizierter wird weil z.B. die Korrektur der
Endungsauszeichung für alle Zusammensetzugen mit "-schaft" dann eben zur
Arbeit an 26 Wortlisten wird. Auch die Suche nach einem Eintrag geht dann
nicht mehr so einfach im Editor sondern nur noch mit grep.

> Bis jetzt habe ich den Aufwand gescheut – diese
> Konversion hätte nur dann Sinn, wenn alte Einträge ebenfalls getrennt
> werden, damit »git blame« auch in Zukunft sinnvolle Resultate liefert
> – aber vielleicht sollte ich da aktiv werden (unter Verwendung des
> Programms »reposurgeon«)...

>   http://www.catb.org/esr/reposurgeon/repository-editing.html

Selbst wenn wir uns durch viel Arbeit hier einen Vorteil erkauften, wäre der
m.E. nicht größer als die obgenannten Nachteile der Aufteilung.

> Das wir uns aus rein technischen Gründen irgendwie beschränken müssen,
> halte ich für unzumutbar.  Wenn wir Ableitungen im Allgemeinen
> vermeiden wollen, dann muß es ein stärkeres Argument sein.

Ich möchte mich nicht aus rein technischen sondern aus
praktischen/menschlichen Gründen beschränken. Ein großer Teil der Arbeit an
der Wortliste ist "Handarbeit" (ggf. mit Werkzeug aber dennoch mit
"Beaufsichtigung" bzw. nicht automatisierter Qualitätkontrolle).

Einträge die die Qualität der Trennmuster nicht beeinflussen sind halt
nicht einfach nur egal, denn sie machen die Pflege der Wortliste
aufwendiger (das fängt schon bei der Durchsicht der neuesten Commits mit
"neue einfachen Komposita" an).

Insofern plädiere ich dafür das Ziel eine (möglichst) vollständige Liste der
Wörter und Wortformen der deutschen Gegenwartssprache zu erstellen zu
streichen. 

Mein Ziel ist eine "intelligent gewählte" Stichprobe der Wörter und
Wortformen, welche nach Verarbeitung mit patgen (möglichst) alle Wörter
und Wortformen korrekt trennt.

Viele Grüße

Günter