[Trennmuster] Python-Skript wortzerlegung.py

Werner LEMBERG wl at gnu.org
Sa Okt 17 06:53:03 CEST 2020


>> Da mußt Du aber seehr viel Geduld haben – `git blame` funktioniert
>> ganz schlecht mit so großen Dateien wie »wortliste«.
>
> Das ist der Punkt, wieso ich gegen die Aufnahme aller Ableitungen
> von zusammengesetzten Wörtern bin.  Die Größe der "wortliste" in MB
> ist kein Problem für moderne Speichermedien aber bei der Arbeit mit
> dem Werk gibt es Wartezeiten, sei es nun git, eines meiner
> Python-Skripte oder andere schlecht skalierende
> Verarbeitungsautomatiken oder die mühselige Aufgabe eine
> Auszeichnungsänderung für alle betroffenen (aber nicht alle auf den
> regulären Suchausdruck passenden) Wörter anzuwenden...

Ich will schon seit Jahren das Repositorium neu aufsetzen, in dem die
Wortliste nicht mehr als ein ganzes, sondern nach Buchstaben getrennt
aufgesetzt ist.  Bis jetzt habe ich den Aufwand gescheut – diese
Konversion hätte nur dann Sinn, wenn alte Einträge ebenfalls getrennt
werden, damit »git blame« auch in Zukunft sinnvolle Resultate liefert
– aber vielleicht sollte ich da aktiv werden (unter Verwendung des
Programms »reposurgeon«)...

  http://www.catb.org/esr/reposurgeon/repository-editing.html

Das wir uns aus rein technischen Gründen irgendwie beschränken müssen,
halte ich für unzumutbar.  Wenn wir Ableitungen im Allgemeinen
vermeiden wollen, dann muß es ein stärkeres Argument sein.

>> > Wenn die Punkte in der Wortliste bleiben sollten, muss das Skript
>> > noch dazulernen...
>
>> Ja, bitte.
>
> Schon gemacht.

Danke!


    Werner




Mehr Informationen über die Mailingliste Trennmuster