[Trennmuster] Endungen finden
Guenter Milde
milde at users.sf.net
Fr Mai 22 17:26:00 CEST 2015
On 15.05.15, Tobias Wendorff wrote:
> Hallo,
> ich habe mir ein Script gebastelt, welches den längsten gemeinsamen Teil
> eines Strings anzeigt.
Was ist das Ziel der Übung? Statistik, Fehlersuche, ...?
(Davon hängt auch ab, welches Vorgehen effektiv ist.)
> Ich drehe die Texte zunächst um und vergleiche
> dann jeden String mit jedem über einen LCS-Algorithmus.
> 1. hauptstraße
> 2. dönerstraße
> 3. münsterstraße
> 4. lehrerstraße
> 0. eßartstpuah
> 1. eßartsrenöd
> 2. eßartsretsnüm
> 3. eßartsrerhel
Die umgedrehte Liste könnte man einfach sortieren, dann liegen ähnliche
"end"-strings nebeneinander.
> 1. eßartsrenöd
> 3. eßartsrerhel
> 2. eßartsretsnüm
> 0. eßartstpuah
> Anschließend ermittle ich die Häufigkeiten der Ergebnisse und bewerte
> die Eigenständigkeit. "restraße" und "straße" kommen natürlich dabei
> raus, erstes muss aber weggefiltert werden.
Wenn Teilwörter ausgefiltert werden sollen, kannst Du gleich mit der von
"analyse.py" angelegten "Teilwortdatei" anfangen. Da steht auch drin, wie
oft jedes "Teilwort" allein bzw. an erster, mittlerer, oder letzter Stelle
in Verbindungen vorkommt.
> Hat jemand eine Idee, wie ich das ein wenig effizienter gestalten könnte?
Kommt, wie gesagt hauptsächlich drauf an, worauf Du hinaus willst.
Günter
Mehr Informationen über die Mailingliste Trennmuster