[Postfixbuch-users] Sapmassassin mit FuzzyOCR und Hash-DB
Reiner Menkens
reiner.menkens at gmx.de
Mo Feb 5 21:33:41 CET 2007
> habe seit einiger Zeit bei unserem Postfix FuzzyOCR einschließlich
> der Image-Hash-DB in Verwendung.
> Es ist mir jetzt schon zweimal aufgefallen, dass eine Mail aufgrund
> eines Hash-Eintrags
> fälschlicherweise als Spam klassifiziert wurde. Habe mir die Bilder
> dann angeschaut, die waren
> absolut unverfänglich!
> Hat jemand anderer auch solche Erfahrungen? Sollte man die Image-
> Hash-DB lieber nicht verwenden
> (steht ja auch 'experimental' in der Konfigurationsdatei)?
Fuzzy OCR 2.3 in der Standardkonfiguration hat bei uns im Testbetrieb
relativ viele false positives verursacht.
Ich denke, das Problem ist ein false positive beim ersten auftreten
des Images. Danach ist das Bild in der DB. Wenn man den Fehler
untersuchen will, muss man das erste Auftreten des Images untersuchen.
Ich würde:
- auf FuzzyOCR 3.5x umsteigen
- die FuzzyOCR.word genau prüfen Volksbank, Sparkasse sind
standardmässig drin, stehen aber zumindest bei unserer Kundschaft
auch bei Rechnungen oder Angeboten oft als Kontoverbindung in der mail.
- die Punktzahl, die vergeben wird auf die Hälfte herunterschrauben,
die korrekt erkannten Spams hatten bei uns so hohe Werte, dass auch
die Hälfte reicht, die alse positives waren aber oft relativ knapp
Gruß
Reiner
Mehr Informationen über die Mailingliste Postfixbuch-users