Training des BAYES Filters

Sa Feb 26 17:04:07 CET 2022

Hallo Carsten,
vielen Dank für Deine Hilfe.

Am 26.02.22 um 16:07 schrieb Carsten Rosenberg via Postfixbuch-users:
> 
> Rspamd ist so umfangreich und flexibel, dass die Doku da natürlich etwas 
> nachsteht. Im Endeffekt ist Rspamd derzeit eine One-Man-Show. Die Doku 
> ist aber auch auf Github gehostet ;)
> 
Das habe ich auch so bemerkt, manchmal hilft's die Issues zu lesen ;-)

> Ich erstelle Montag gern eine Anti-Spam bzw eine Rspamd Liste hier auf 
> dem Server. Bisher gab es zu dem Thema immer recht wenige Topics und der 
> MTA war das zentrale Thema. In unserer Arbeit wird der Rspamd immer 
> zentraler und der MTA damit weniger komplex.
> 
Das wäre super! Ich hab da einige Topics in der Pipeline, die hier nicht 
so recht rein passen.
Die Liste würde ich aber eher allgemein in Richtung Anti-Spam-Techniken 
beschreiben, so daß auch Nutzer von anderen Tools, MTAs & Plattformen 
sich dafür interessieren.

> Vom Per-User Bayes bin ich nicht mehr so überzeugt. Man vervielfacht 
> seine Datenhaltung und im Endeffekt liegen die Statistiken sehr nah am 
> globalen Bayes. Dadurch dass man eine Mindestzahl an gelernten Mails 
> (200+) und das für HAM als auch SPAM braucht, ist der Einfluss 
> angelernter Mail für den User außerdem recht klein. Außer der User lernt 
> schon zu Beginn eine gewisse Zahl an HAM und SPAM.

Ich hatte Dutzende E-Mailadressen mit ein paar gelernten E-Mails 
angesammelt und der Filter wurde nie getriggert ;-)
Man kann zwar mit dem Parameter -u den rspamc anweisen, auf einen 
bestimmten Nutzer hin zu trainieren, aber bekommt rspamd diese Info, 
wenn er die Mail vom MTA entgegen nimmt? Postfix prüft ja vor Übergabe 
an den Milter gegen die virtual alias table, sonst würde ja 
reject_unlisted_recipient nicht vorab schon greifen.
Bei "per user" hatte ich angenommen, dass der BAYES pro Mailbox lernt 
und nicht pro Alias.

> Rspamd verwendet nur ganz wenige Header, wobei Received und From/To 
> nicht dabei sind. Ihr könnt also einfach die Mails direkt aus dem 
> Postfach anlernen.
> 
> https://rspamd.com/doc/usage_policy.html
> 
> classify_headers = [
>      "User-Agent",
>      "X-Mailer",
>      "Content-Type",
>      "X-MimeOLE",
> ];

Ich werde das mal genauer anschauen. Bei dem zuletzt genutzen 
Lernmaterial habe ich mal sicherheitshalber alles raus genommen, was 
mein Server in den Mails hinzugefügt hatte.

Der LOCAL_FUZZY ist da unproblematischer und arbeitet recht präzise. 
Soweit ich weiß, checkt der nur den Body und keine Header, oder?
Der FUZZY Filter erkennt auch den penetranten IMG-Spam sehr gut, auch 
wenn das Bildmaterial neu komprimiert wurde.

-- 
Direktkontakt: ml-pbu at syntaxys.de