[Trennmuster] Webcrawler

Fr Dez 6 15:43:25 CET 2013

Hallo,

ich habe für mich intern einen Crawler geschrieben, der alle Mails,
Texte und weiß-ich-was durchsucht und daraus eine eigene Wortliste
mit Häufigkeitsverteilungen erzeugt.

Eigentlich könnte man sowas auch auf PDF-Dateien im Netz anwenden.
Wenn man sie nicht zwischenspeichert, direkt verarbeitet und daraus
eine neue Datenbank oder sogar ein Datenbankwerk erzeugt, könnte
man Wörter mit und ohne Trennung finden. Auch wenn wir derzeit
andere Sorgen haben, könnte man so Wörter aus wissenschaftlichen
Veröffentlichungen "erwischen" und das Urheberrecht wahren.
Google cached einfach, das ist ja nicht gut.

Wie gesagt: nur eine Idee, denn ich bastle noch an der GUI, bei
der man schöne und unschöne Worttrennungen markieren kann und
da sind "frische" Wörter wichtig.

LG
Tobias