[Postfixbuch-users] Reject SPAM Score für ausgehende Mails
Peer Heinlein
p.heinlein at heinlein-support.de
Fr Okt 23 10:36:51 CEST 2009
Am Donnerstag 22 Oktober 2009 schrieb Uwe Driessen:
> > Inwiefern ist das Mathematik, das würde mich jetzt mal ein wenig
> > genauer interessieren?
Weil die Socring-Werte genau auf eine erreichte false positive / false
negative-Rate weisen, die in einer Referenzmessung ermittelt wird.
Insofern ist das Ergebnis kein "Zufall" und insofern muß man nicht wild
an Werten schrauben, sondern kann eigentlich anhand der für sich selbst
definierten zu erreichenden Grenzwerte den jeweiligen
SpamAssassin-Score ablesen, den man dafür nutzen muß.
> > Dachte bis dato eigentlich das müsste man quasi so fein abstimmen
> > bis man irgendwann mal einen Wert hat der auf die eigenen
> > Bedürfnisse recht gut passt.
Ich halte von dieser ganzen Theorie der "eigenen Bedürfnisse" nichts.
Bis auf wenige Sonderfälle kriegen über kurz oder lang in der Masse
dann Alle doch den gleichen Spam und alle die gleichen Mails. Insofern
hat da eigentlich niemand "eigene" Bedürfnisse, sondern alle haben
a) Optimal wenig Spam durch bei gleichzeitig
b) Optimal wenig false positives.
Ganz einfach. Was daran individuell sein soll -- ich weiß es nicht.
Und die Meßwerte der Referenzmessung zum SpamAssassin-Scoring zeigen
eben ganz deutlich: Bei rund 6.3 Punkten hat man eine ausreichend hohe
Erkennung bei sehr wenig false positives.
> Alle punkte zusammengezählt ergeben den score(Mathematik +-*/).
Das ist Mathematik für Grundschüler. :-)
Ich meine aber die Wahrscheinlichkeitsrechnung hinter dem Score, also
Stochastik. Also die Frage, warum ein Spam-Merkmal nun 1.262 und nicht
etwa 1.333 oder einfach nur 1.5 Punkte bekommt. Das ist ja nicht
willkürlich, daß es hier Werte bis auf einen Tausenstel Punkt gibt. Das
kommt ja woher -- aus der Referenzmessung in der diese Scoring-Werte
exakt auf die hinter diesem Merkmal steckende Spam-Wahrscheinlichkeit
gerechnet werden und wo alle Werte so normiert werden, daß ein Scoring
von 6.0 Punkten eben 6.0 Punkte ist.
http://wiki.apache.org/spamassassin/HowScoresAreAssigned
> Durch langjährige Beobachtungen hat sich dann herausgestellt das bis
Nein, durch Messen, bzw. durch die Ergebnisse der Scoring-Normierung.
> Listenmails, erwünschte Werbemails). Mehr Geheimnisse gibt es dabei
> nicht
Mist. Jetzt fehlt mir so ein pseudoschlaues Jedi-Ritter-Zitat von
wegen "die Dunkel Seite der Macht nicht erkennen Du tust". Oder so.
Man findet die Ergebnisse der Referenzmessungen im
SpamAssassing-Quellcode-TGZ
http://apache.mirror.iphh.net/spamassassin/source/Mail-SpamAssassin-3.2.5.tar.gz
in der Datei STATISTIC-set0.txt (bis -set3.txt). Hier ein Beispiel:
# SUMMARY for threshold 6.0:
# Correctly non-spam: 67531 99.97%
# Correctly spam: 115906 97.33%
# False positives: 19 0.03%
# False negatives: 3177 2.67%
# TCR(l=50): 28.854616 SpamRecall: 97.332% SpamPrec: 99.984%
# SUMMARY for threshold 6.5:
# Correctly non-spam: 67543 99.99%
# Correctly spam: 115120 96.67%
# False positives: 7 0.01%
# False negatives: 3963 3.33%
# TCR(l=50): 27.610248 SpamRecall: 96.672% SpamPrec: 99.994%
Mit freundlichen Grüßen
Peer Heinlein
--
Heinlein Professional Linux Support GmbH
Linux: Akademie - Support - Hosting
http://www.heinlein-support.de
Tel: 030-405051-42
Fax: 030-405051-19
Zwangsangaben lt. §35a GmbHG:
HRB 93818 B / Amtsgericht Berlin-Charlottenburg,
Geschäftsführer: Peer Heinlein -- Sitz: Berlin
Mehr Informationen über die Mailingliste Postfixbuch-users