[Trennmuster] Webcrawler
Pander
pander at users.sourceforge.net
Mo Dez 9 10:11:59 CET 2013
On 06-12-13 15:43, Tobias Wendorff wrote:
> Hallo,
>
> ich habe für mich intern einen Crawler geschrieben, der alle Mails,
> Texte und weiß-ich-was durchsucht und daraus eine eigene Wortliste
> mit Häufigkeitsverteilungen erzeugt.
>
> Eigentlich könnte man sowas auch auf PDF-Dateien im Netz anwenden.
> Wenn man sie nicht zwischenspeichert, direkt verarbeitet und daraus
> eine neue Datenbank oder sogar ein Datenbankwerk erzeugt, könnte
> man Wörter mit und ohne Trennung finden. Auch wenn wir derzeit
> andere Sorgen haben, könnte man so Wörter aus wissenschaftlichen
> Veröffentlichungen "erwischen" und das Urheberrecht wahren.
> Google cached einfach, das ist ja nicht gut.
>
> Wie gesagt: nur eine Idee, denn ich bastle noch an der GUI, bei
> der man schöne und unschöne Worttrennungen markieren kann und
> da sind "frische" Wörter wichtig.
>
> LG
> Tobias
We at OpenTaal have a distributed harvester that harvests Dutch
paragraphs from thh internet and subsequently extracts words in such a
way that copyright is respected (only citations are used) and original
documents cannot be reconstructed.
We have also found a way to filter on language because many websites
have pages in diferent languages. If you are interested we can join our
efforts and make an international harvester.
Regards,
Pander
>
> _______________________________________________
> Trennmuster mailing list
> Trennmuster at dante.de
> https://lists.dante.de/mailman/listinfo/trennmuster
>
Mehr Informationen über die Mailingliste Trennmuster