[Postfixbuch-users] Reject SPAM Score für ausgehende Mails

Fr Okt 23 10:36:51 CEST 2009

Am Donnerstag 22 Oktober 2009 schrieb Uwe Driessen:

> > Inwiefern ist das Mathematik, das würde mich jetzt mal ein wenig
> > genauer interessieren?

Weil die Socring-Werte genau auf eine erreichte false positive / false 
negative-Rate weisen, die in einer Referenzmessung ermittelt wird. 
Insofern ist das Ergebnis kein "Zufall" und insofern muß man nicht wild 
an Werten schrauben, sondern kann eigentlich anhand der für sich selbst 
definierten zu erreichenden Grenzwerte den jeweiligen 
SpamAssassin-Score ablesen, den man dafür nutzen muß.

> > Dachte bis dato eigentlich das müsste man quasi so fein abstimmen
> > bis man irgendwann mal einen Wert hat der auf die eigenen
> > Bedürfnisse recht gut passt.

Ich halte von dieser ganzen Theorie der "eigenen Bedürfnisse" nichts. 
Bis auf wenige Sonderfälle kriegen über kurz oder lang in der Masse 
dann Alle doch den gleichen Spam und alle die gleichen Mails. Insofern 
hat da eigentlich niemand "eigene" Bedürfnisse, sondern alle haben

a) Optimal wenig Spam durch bei gleichzeitig
b) Optimal wenig false positives.

Ganz einfach. Was daran individuell sein soll -- ich weiß es nicht.

Und die Meßwerte der Referenzmessung zum SpamAssassin-Scoring zeigen 
eben ganz deutlich: Bei rund 6.3 Punkten hat man eine ausreichend hohe 
Erkennung bei sehr wenig false positives.

> Alle punkte zusammengezählt ergeben den score(Mathematik +-*/).

Das ist Mathematik für Grundschüler. :-)

Ich meine aber die Wahrscheinlichkeitsrechnung hinter dem Score, also 
Stochastik. Also die Frage, warum ein Spam-Merkmal nun 1.262 und nicht 
etwa 1.333 oder einfach nur 1.5 Punkte bekommt. Das ist ja nicht 
willkürlich, daß es hier Werte bis auf einen Tausenstel Punkt gibt. Das 
kommt ja woher -- aus der Referenzmessung in der diese Scoring-Werte 
exakt auf die hinter diesem Merkmal steckende Spam-Wahrscheinlichkeit 
gerechnet werden und wo alle Werte so normiert werden, daß ein Scoring 
von 6.0 Punkten eben 6.0 Punkte ist.

http://wiki.apache.org/spamassassin/HowScoresAreAssigned

> Durch langjährige Beobachtungen hat sich dann herausgestellt das bis

Nein, durch Messen, bzw. durch die Ergebnisse der Scoring-Normierung.

> Listenmails, erwünschte Werbemails). Mehr Geheimnisse gibt es dabei
> nicht 

Mist. Jetzt fehlt mir so ein pseudoschlaues Jedi-Ritter-Zitat von 
wegen "die Dunkel Seite der Macht nicht erkennen Du tust". Oder so.

Man findet die Ergebnisse der Referenzmessungen im 
SpamAssassing-Quellcode-TGZ 

http://apache.mirror.iphh.net/spamassassin/source/Mail-SpamAssassin-3.2.5.tar.gz

in der Datei STATISTIC-set0.txt (bis -set3.txt). Hier ein Beispiel:

# SUMMARY for threshold 6.0:
# Correctly non-spam:  67531  99.97%
# Correctly spam:     115906  97.33%
# False positives:        19  0.03%
# False negatives:      3177  2.67%
# TCR(l=50): 28.854616  SpamRecall: 97.332%  SpamPrec: 99.984%

# SUMMARY for threshold 6.5:
# Correctly non-spam:  67543  99.99%
# Correctly spam:     115120  96.67%
# False positives:         7  0.01%
# False negatives:      3963  3.33%
# TCR(l=50): 27.610248  SpamRecall: 96.672%  SpamPrec: 99.994%

Mit freundlichen Grüßen

Peer Heinlein

-- 

Heinlein Professional Linux Support GmbH
Linux: Akademie - Support - Hosting
http://www.heinlein-support.de

Tel: 030-405051-42
Fax: 030-405051-19

Zwangsangaben lt. §35a GmbHG:
HRB 93818 B / Amtsgericht Berlin-Charlottenburg, 
Geschäftsführer: Peer Heinlein  -- Sitz: Berlin