[Trennmuster] Arbeitslisten
Guenter Milde
milde at users.sf.net
Di Apr 21 22:44:47 CEST 2020
On 18.04.20, Werner LEMBERG wrote:
> >> Wieso? Abgesehen von ein paar minimalen Aberwitzigkeiten finde ich
> >> den Datensatz durchaus gut.
> >
> > Mir geht es dabei um die Größe. Einträge, die die Trennqualität nicht
> > verbessern erschweren trotzdem die Arbeit mit der Wortliste (längere
> > Ladezeiten, mehr Speicherplatz, längeres Warten für alle "make" Ziele und
> > "abgleich_neueintraege" etc. und die manuelle Inspektion von
> > Suchergebnislisten.
> Ich könnte mir vorstellen, daß man mit einem Skript über die Liste
> marschiert und Einträge herausfiltert, die bestimmt keinen Einfluß auf
> Trennmuster haben...
Für den Arbeitsaufwand ist es doch sicher günstiger, zunächst weniger Wörter
aufzunehmen und bei Bedarf nachzubessern. Es bleibt auch dann genug zu tun.
> > Die Problematik um "=" herum wird aber nicht besser, wenn wir z.B.
> >
> > pflegeleicht;pfle-ge=leicht
> >
> > um
> >
> > pflegeleichte;pfle-ge=leich-te
> > pflegeleichtem;pfle-ge=leich-tem
> > pflegeleichten;pfle-ge=leich-ten
> > pflegeleichter;pfle-ge=leich-ter
> > pflegeleichtere;pfle-ge=leich-te-re
> > pflegeleichterem;pfle-ge=leich-te-rem
> > pflegeleichteren;pfle-ge=leich-te-ren
> > pflegeleichterer;pfle-ge=leich-te-rer
> > pflegeleichteres;pfle-ge=leich-te-res
> > pflegeleichtes;pfle-ge=leich-tes
> > pflegeleichteste;-2-;pfle-ge=leich-te-ste;pfle-ge=leich-tes-te
> > pflegeleichtestem;-2-;pfle-ge=leich-te-stem;pfle-ge=leich-tes-tem
> > pflegeleichtesten;-2-;pfle-ge=leich-te-sten;pfle-ge=leich-tes-ten
> > pflegeleichtester;-2-;pfle-ge=leich-te-ster;pfle-ge=leich-tes-ter
> > pflegeleichtestes;-2-;pfle-ge=leich-te-stes;pfle-ge=leich-tes-tes
> >
> > ergänzen
> Nun ja, links und rechts von der Trennstelle muß man bis zu acht
> Buchstaben weit schauen, als könnte beispielsweise
> pfle-ge=leich-te-ste
> und
> pfle-ge=leich-te-re
> relevant sein.
Bis zu 8 Buchstaben ist aber eher selten nötig und nur, wenn ein Konflikt um
die Trennstelle herum besteht, wie z.B. in
Bau=mast
Baum=ast
oder
Web=er<zeug>nis-se
We-ber=zeug>nis-se
oder
weit=er<gä-be
wei-ter=gä-be
Insofern bin ich immer noch dafür zunächst nur Grundformen aufzunehmen,
zumindest bei seltenen/exotischen Wörtern:
./filter_neueintraege.py -an < ungetrennt.txt > neue.txt
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster