[Trennmuster] Python-Skript wortzerlegung.py

Fr Okt 16 20:34:05 CEST 2020

On  6.10.20, Werner LEMBERG wrote:

> >> neuerdings gibt das Skript Ungünstigkeitsmarker vor Präfixen mit aus:
> >>
> >>    .be # < Soft-ware==in<.be<trieb=nah-me +0×
> >>    .ge # < alt=an<.ge<se-hen +20×
> >>    .zy-klo # < All<ge<mein=en<.zy-klo<pä-die +8×
> >>
> >> Die sollten da nicht stehen.
> >
> > Ich weiß auch nicht, wer da dauern irdendwelche Punkte in die
> > Wortliste schreibt

> Ich bin das :-)

> Und es sind nicht »irgendwelche« Punkte, sondern (a) entweder
> wohlüberlegt, oder (b) entsprechend anderen, ähnlichen Einträgen, die
> bereits Punkte haben.

> > (könnte es mit blame herausbekommen),

> Da mußt Du aber seehr viel Geduld haben – `git blame` funktioniert
> ganz schlecht mit so großen Dateien wie »wortliste«.

Das ist der Punkt, wieso ich gegen die Aufnahme aller Ableitungen von
zusammengesetzten Wörtern bin.
Die Größe der "wortliste" in MB ist kein Problem für moderne Speichermedien
aber bei der Arbeit mit dem Werk gibt es Wartezeiten, sei es nun git, eines
meiner Python-Skripte oder andere schlecht skalierende
Verarbeitungsautomatiken oder die mühselige Aufgabe eine Auszeichnungsänderung
für alle betroffenen (aber nicht alle auf den regulären Suchausdruck
passenden) Wörter anzuwenden...

> > Wenn die Punkte in der Wortliste bleiben sollten, muss das Skript
> > noch dazulernen...

> Ja, bitte.

Schon gemacht.

Günter