[Trennmuster] Seltsames Verhalten von `abgleich-neueintraege.py`

Werner LEMBERG wl at gnu.org
Fr Apr 3 14:49:02 CEST 2020


Hallo Günter!


> schön zu lesen, dass hier noch Leben ist.

Alles eine Frage der Zeit – davon habe ich derzeit mehr :-)

>> 5. Entfernen aller Einträge, die schon in unserer Wortliste sind.
>>    Benutzt habe ich dazu das angehängte Perl-Skript.
> 
> Das ist bei "abgleich-neueinträge" übrigens auch drin.

Ja, danke, aber ich wollte das im Voraus machen, einfach um ein Gefühl
für die Datenmenge zu bekommen.

>   Weglassen häufiger Ableitungen und vorhandener Einträge mit 
>   
>   ../edit_tools/abgleich_neueintraege.py -f -a < INFILE > OUTFILE
>    
>    de-kurz-neu.txt: ca. 500 000 Einträge

Danke.  Mir schwebt allerdings eine andere Strategie vor: Das Füttern
des Trennalgorithmus mit eindeutig erkannten Ableitungen aus
»german.dic«, die aber noch nicht in »wortliste« sind, und nur
Fehltrennungen sollen ergänzt werden.  Auf diese Weise können die
Trennmuster gehärtet werden.  Das ganze ist wahrscheinlich ein
iterativer Prozeß.

>> [...] Wenn ich dagegen nur das Wort »zytogenetisch« vom Skript
>> bearbeiten lasse, erzeugt es korrekt
> 
>>   zytogenetisch;zy-to<ge-ne-tisch
> 
>> Das schaut nach einem Bug aus.  Günter?
> 
> Ich denke, das ist eine Überlastung infolge der riesigen
> Eingabedatei.  Die "Expansion" ist ein notwendiger Zwischenschritt,
> wird normalerweise später rückgängig gemacht.

»Überlastung«?  Wie soll ich mir das vorstellen?

> Die Skripte sind nicht auf Effizienz getrimmt, evt. ist fehlender
> Speicher oder zu hohe Rekursionstiefe verantwortlich.  Genau kann
> ich es nicht sagen.

Hmm.  Soweit ich weiß, führen beide Probleme zu einem sofortigen
Abbruch des Python-Skripts.  Übersehe ich da etwas?

> Mein Vorschlag ist, versuche es mit einer Teilmenge (1000 oder 10000
> Einträge): ein Block, zufällig ausgewählte Einträge, mit Filtern der
> üblichen Ableitungen (die sind meist automatisch richtig und müssen
> daher nicht unbedingt in die "wortliste").

Ja, das werde ich machen, wenn's nicht anders geht – ich hab' halt
jetzt die rund 32000 »expandierten« Einträge manuell gestutzt.

> Außerdem gab es den Vorschlag, diese "Restwörter" (in germandict
> aber nicht in der wortliste) als Gütekriterium zu nehmen: jetzt alle
> mit dem Algorithmus trennen, und nach den Neueinträgen vergleichen.

Jawoll.  Ich will aber eben nicht mit den komplett unbekannten anfangen,
sondern mit den abgeleiteten Einträgen.


    Werner




Mehr Informationen über die Mailingliste Trennmuster