[Postfixbuch-users] Mailbox-Analyse mit "Word Clouds"?

Marc Patermann hans.moser at ofd-sth.niedersachsen.de
Mo Feb 9 12:13:32 CET 2009


Hallo!

Ein oft diskutiertes Thema im Zusammenhang mit eMail am Arbeitsplatz ist 
immer wieder das Verhindern der "stillschweigenden Nutzung" durch 
"geeignete Kontrollen". Was geeignete und auch durchführbare Kontrollen 
sein können, ist anscheinend kaum klar. Oft wird dann nichts gemacht.

Gerade wenn auch Kommunikation mit Privatpersonen notwendig ist, ist im 
Zweifel nur anhand des Inhalts erkennbar, ob eine Mail privat oder 
dienstlich ist.

Eine Möglichkeit der Stichprobenkontrolle wäre z.B. einfach ins 
eMailkonto reinzugucken; "So, Frau Mustermann, heute gucken wir im 
Rahmen der Stichprobenkontrolle im Beisein des Betriebsrats mal in Ihr 
Konto ..." Nun ja.

Mir kam nun die Idee, eine Stichprobenauswertung über den Inhalt eines 
Mailkontos mittels einer "Word Cloud" zu erstellen.
Das hätte den Vorteil, dass dem "Kontrolleur" nicht direkt Zusammenhänge 
und Sachverhalte bekannt werden. Aber - wenn das so geht, wie ich mir 
das vorstelle - man sieht Begriffe und deren Häufigkeit / Relevanz 
innerhalb des Kontos.
Wenn da also in Mitte groß "Hasi" und "Mausi" oder "Kaffee" und 
"Mahlzeit" statt "Umsatz", "Regelgröße" und "Angebot" steht, ließe das 
ja schon entsprechende Schlüsse zu.

Bisher habe ich noch nicht weiter dazu finden können. Vielleicht ist die 
Idee auch einfach zu blöd. :) Wahrscheinlich ist außerhalb Deutschlands 
so ein Quatsch aber auch gar nicht nötig. Wobei in den USA von den 
Arbeitgebern ja auch gern alles kontrolliert wird ...

Hat jemand ne Meinung dazu bezüglich Sinnhaftigkeit, Durchführbarkeit 
und mögliche Realisierungen?

Da die auf den meisten freien IMAP-Servern die Mails "frei" auf der 
Platte liegen, müsste zuerst der Body der Mails decodiert werden 
(base64, quoted-printable etc.), dann alles zusammengeführt und 
ausgewertet werden. Die unrelevanten Teile - Artikel, Hilfsverben usw. - 
müssten dabei natürlich außen vor bleiben.
Die Dateinamen und Dateitypen könnte man z.B. auch noch mit auswerten.


Marc



Mehr Informationen über die Mailingliste Postfixbuch-users