[Trennmuster] Webcrawler

Mo Dez 9 10:11:59 CET 2013

On 06-12-13 15:43, Tobias Wendorff wrote:
> Hallo,
> 
> ich habe für mich intern einen Crawler geschrieben, der alle Mails,
> Texte und weiß-ich-was durchsucht und daraus eine eigene Wortliste
> mit Häufigkeitsverteilungen erzeugt.
> 
> Eigentlich könnte man sowas auch auf PDF-Dateien im Netz anwenden.
> Wenn man sie nicht zwischenspeichert, direkt verarbeitet und daraus
> eine neue Datenbank oder sogar ein Datenbankwerk erzeugt, könnte
> man Wörter mit und ohne Trennung finden. Auch wenn wir derzeit
> andere Sorgen haben, könnte man so Wörter aus wissenschaftlichen
> Veröffentlichungen "erwischen" und das Urheberrecht wahren.
> Google cached einfach, das ist ja nicht gut.
> 
> Wie gesagt: nur eine Idee, denn ich bastle noch an der GUI, bei
> der man schöne und unschöne Worttrennungen markieren kann und
> da sind "frische" Wörter wichtig.
> 
> LG
> Tobias

We at OpenTaal have a distributed harvester that harvests Dutch
paragraphs from thh internet and subsequently extracts words in such a
way that copyright is respected (only citations are used) and original
documents cannot be reconstructed.

We have also found a way to filter on language because many websites
have pages in diferent languages. If you are interested we can join our
efforts and make an international harvester.

Regards,

Pander

> 
> _______________________________________________
> Trennmuster mailing list
> Trennmuster at dante.de
> https://lists.dante.de/mailman/listinfo/trennmuster
>