[Postfixbuch-users] Best Practices? Verständnis spamassassin? Re: was: spamassassin, amavisd-new,sa-learn welcher user?

Di Jul 25 12:27:27 CEST 2006

Jim Knuth schrieb:
> Heute (22.07.2006/19:54 Uhr) schrieb Matthias Haegele,

[...]

>>Hintergrund:
>>Mit welchem User muss ich sa-learn ausfuehren damit das "gelernte" in der
>>"globalen Datenbank" landet?.
>>Gerne lasse ich mich auf eine FAQ oder aehnliches hinweisen ...
>>Habe *irgendwo* gelesen dass man sa-learn als user: mail ausfuehren soll:
> 
> 
>>sudo -u mail -H sa-learn --spam --showdots --dir /tmp/SPAM/*

Gut. Korrigiert: screen sudo -u amavis -H sa-learn --spam --showdots 
/tmp/SPAM/*

/* Bei vielen Messages nehm ich gerne screen, da sonst die Console
lange belegt ist: (ja manche machen das auch über cronjobs ;-) ... )/*

>>Das macht mich stutzig da ich keinen Prozess erkennen kann der als user:
>>mail laeuft ...
> 
> wenn amavis im Spiel ist, läuft das unter dem User, der in der
> amavisd.conf definiert ist. I.d.R unter vscan oder amavis

Jup. Danke, amavisd.conf. Man kann manchmal ganz schön blind sein ... :
$daemon_user  = 'amavis';

-------------------------------------------------------------------------------------

Man befürchtet es schon, ich habe noch weitere Fragen:

Das Setup:
-------------------------------------------------------------------------------------
Debian 3.1, sa aus unstable ..
ii  spamassassin   3.1.3-1        Perl-based spam filter using text analysis
ii  amavisd-new    20030616p10-5  Interface between MTA and virus 
scanner/cont
ii  postfix        2.1.5-9        A high-performance mail transport agent
amavisd-new standardmässig über Filter in Postfix
content_filter = amavisd-new:[127.0.0.1]:10024 eingebunden
-------------------------------------------------------------------------------------

Die Fragen:

1 a) Bayes Test von spamassassin:

http://wiki.apache.org/spamassassin/SiteWideBayesSetup
Gibt es sowas eigentlich auch f. amavisd-new, die Doku hierzu scheint 
recht "dünn" zu sein?.

Das Problem:
> ls -la /home/username/Maildir/.SPAM/cur/ | wc -l
> 135

> The bayesian classifier can only score new messages if it already has 200 known spams and 200 known hams.
amavisd-new debug-sa:
> [24571] dbg: bayes: found bayes db version 3
> [24571] dbg: bayes: DB journal sync: last sync: 0
> [24571] dbg: bayes: not available for scanning, only 169 spam(s) in bayes DB < 200

b) Macht es Sinn die (bereits richtig) erkannten und in Quarantäne 
ausgefilterten Mails (score recht hoch meist >10) 
(/var/lib/amavis/virusmails/spam*) an sa-learn zu verfüttern? Dann käme 
ich knapp auf 200 ;-).

Feststellung:
Für mich ergibt es keinen Sinn *irgendwo* "Spamsamples" runterzuladen um 
dann mein SA mit diesen zu trainieren,
da selbige sich ja von dem spam unterscheiden können/werden, den ich 
bekomme ... /*

Dem stehen ca. 60000 Ham-Mails (hauptsächlich von Mailinglisten) gegenüber.

----------------------------------------------------------------

2)  Es kommen nur sehr wenige Spammails durch, meist sind diese dann von 
den Mailinglisten
Dort vermute ich auch das Problem:
AWL Tests schlagen immer an:
Vermutung: auto-whitelisting für die Mailinglisten ergibt hohen Wert, 
sollte man das evtl. deaktivieren?.

----------------------------------------------------------------
OT:
/* (dort liegen ein paar tausend Mails):
  grep AWL /home/username/Maildir/cur/115*
-su: /bin/grep: Argument list too long
Wie lange darf denn eigentlich die Argumentliste sein, kommt die 
Limitierung von "bash/shell" oder vom Kommando?
/*
----------------------------------------------------------------

3) Prüfung auf "URL Blacklist" in Spammails,
d.h. es gibt wohl Blacklists die verwendete urls in Spammails führen,
habt ihr da einen Tipp welche verwenden und wie man die in 
SA/amavisd-new einbindet?

Grüsse & Danke für alle Tipps
MH