[Postfixbuch-users] Sapmassassin mit FuzzyOCR und Hash-DB

Reiner Menkens reiner.menkens at gmx.de
Mo Feb 5 21:33:41 CET 2007


> habe seit einiger Zeit bei unserem Postfix FuzzyOCR einschließlich  
> der Image-Hash-DB in Verwendung.
> Es ist mir jetzt schon zweimal aufgefallen, dass eine Mail aufgrund  
> eines Hash-Eintrags
> fälschlicherweise als Spam klassifiziert wurde. Habe mir die Bilder  
> dann angeschaut, die waren
> absolut unverfänglich!
> Hat jemand anderer auch solche Erfahrungen? Sollte man die Image- 
> Hash-DB lieber nicht verwenden
> (steht ja auch 'experimental' in der Konfigurationsdatei)?

Fuzzy OCR 2.3 in der Standardkonfiguration hat bei uns im Testbetrieb  
relativ viele false positives verursacht.
Ich denke, das Problem ist ein false positive beim ersten auftreten  
des Images. Danach ist das Bild in der DB. Wenn man den Fehler  
untersuchen will, muss man das erste Auftreten des Images untersuchen.
Ich würde:
- auf FuzzyOCR 3.5x umsteigen
- die FuzzyOCR.word genau prüfen Volksbank, Sparkasse sind  
standardmässig drin, stehen aber zumindest bei unserer Kundschaft  
auch bei Rechnungen oder Angeboten oft als Kontoverbindung in der mail.
- die Punktzahl, die vergeben wird auf die Hälfte herunterschrauben,  
die korrekt erkannten Spams hatten bei uns so hohe Werte, dass auch  
die Hälfte reicht, die alse positives waren aber oft relativ knapp

Gruß
Reiner


Mehr Informationen über die Mailingliste Postfixbuch-users