[Trennmuster] Arbeitslisten

Guenter Milde milde at users.sf.net
Di Apr 21 22:44:47 CEST 2020


On 18.04.20, Werner LEMBERG wrote:

> >> Wieso?  Abgesehen von ein paar minimalen Aberwitzigkeiten finde ich
> >> den Datensatz durchaus gut.
> >
> > Mir geht es dabei um die Größe. Einträge, die die Trennqualität nicht
> > verbessern erschweren trotzdem die Arbeit mit der Wortliste (längere
> > Ladezeiten, mehr Speicherplatz, längeres Warten für alle "make" Ziele und
> > "abgleich_neueintraege" etc. und die manuelle Inspektion von
> > Suchergebnislisten.

> Ich könnte mir vorstellen, daß man mit einem Skript über die Liste
> marschiert und Einträge herausfiltert, die bestimmt keinen Einfluß auf
> Trennmuster haben...

Für den Arbeitsaufwand ist es doch sicher günstiger, zunächst weniger Wörter
aufzunehmen und bei Bedarf nachzubessern. Es bleibt auch dann genug zu tun.



> > Die Problematik um "=" herum wird aber nicht besser, wenn wir z.B.
> >
> >  pflegeleicht;pfle-ge=leicht
> >
> > um
> >
> >   pflegeleichte;pfle-ge=leich-te
> >   pflegeleichtem;pfle-ge=leich-tem
> >   pflegeleichten;pfle-ge=leich-ten
> >   pflegeleichter;pfle-ge=leich-ter
> >   pflegeleichtere;pfle-ge=leich-te-re
> >   pflegeleichterem;pfle-ge=leich-te-rem
> >   pflegeleichteren;pfle-ge=leich-te-ren
> >   pflegeleichterer;pfle-ge=leich-te-rer
> >   pflegeleichteres;pfle-ge=leich-te-res
> >   pflegeleichtes;pfle-ge=leich-tes
> >   pflegeleichteste;-2-;pfle-ge=leich-te-ste;pfle-ge=leich-tes-te
> >   pflegeleichtestem;-2-;pfle-ge=leich-te-stem;pfle-ge=leich-tes-tem
> >   pflegeleichtesten;-2-;pfle-ge=leich-te-sten;pfle-ge=leich-tes-ten
> >   pflegeleichtester;-2-;pfle-ge=leich-te-ster;pfle-ge=leich-tes-ter
> >   pflegeleichtestes;-2-;pfle-ge=leich-te-stes;pfle-ge=leich-tes-tes
> >
> > ergänzen

> Nun ja, links und rechts von der Trennstelle muß man bis zu acht
> Buchstaben weit schauen, als könnte beispielsweise

>   pfle-ge=leich-te-ste

> und

>   pfle-ge=leich-te-re

> relevant sein.


Bis zu 8 Buchstaben ist aber eher selten nötig und nur, wenn ein Konflikt um
die Trennstelle herum besteht, wie z.B. in

  Bau=mast  
  Baum=ast

oder

  Web=er<zeug>nis-se
  We-ber=zeug>nis-se

oder

  weit=er<gä-be
  wei-ter=gä-be

Insofern bin ich immer noch dafür zunächst nur Grundformen aufzunehmen,
zumindest bei seltenen/exotischen Wörtern:

  ./filter_neueintraege.py -an < ungetrennt.txt > neue.txt


Viele Grüße

Günter



Mehr Informationen über die Mailingliste Trennmuster