Bloccare lo spam con il mio database Bayes per Spamassassin
Ho deciso di pubblicare il mio database Bayes di Spamassassin (SA), contenente ormai piu’ di 300.000 voci di spam, che puo’ tornare utile a tutti i provider e/o persone con MTA in housing appena installati, per insegnare un po’ di cose al proprio spamassassin e non ritrovarsi con centinaia di mail di spam in casella.
Il funzionamento e’ molto semplice, se avete spamassassin installato nel vostro server avrete anche il comando sa-learn con il quale potrete dare in pasto il database e insegnare cosi’ al vostro SA tutto quello che ha imparato dalle mie mail taggate come spam.
Le statistiche Bayesiane si basano sull’evidenza empirica ovvero sulla raccolta di dati, l’esempio piu’ eclatante per spiegarvi meglio come funziona il ragionamento e’ questo:
Il sole è sorto e tramontato per miliardi di anni. Il sole è tramontato anche stanotte. Con un’elevata probabilità , il sole domani sorgerà .
Piu’ o meno nello stesso modo funzionano i filitri Bayes di SA, piu’ dati (spam/non spam) si accumulano e piu’ questo impara a marcare le nuove email come spam (se effettivamente lo sono), io devo dire che ho risolto gran parte dei miei problemi con questo strumento.
Ed ecco come fare:
Scaricate il database di Bayes
eseguite il comando (da root va benissimo):
tar xjvvf spamassassin-bayes-db.tar.bz2
sa-learn --restore spamassassin-bayes-db
Attenzione pero’ che il comando restore fa prima una clear del vostro attuale db (sempre che ce l’avete), per questo consiglio di usarlo soprattutto su sistemi nuovi.
Quando avra’ finito, eseguendo questo comando: spamassassin -D --lint
, noterete che lo spam “imparato” e’ salito notevolmente greppando la riga corpus size. (es. corpus size: nspam = 311808, nham = 24042)
Non vi rimane che aggiustare lo score della vostra configurazione facendo delle prove, vi consiglio di tenere per una giornata il “view all message header” del vostro client di posta settato in modo da vedere con che livello di spam vengono taggate le vostre email e partire da quel punto.
If you enjoyed this post, please consider to leave a comment or subscribe to the feed and get future articles delivered to your feed reader.
12:32 on October 11th, 2011
Anche a voi sta una marea di tempo nel restore del db?
root@alfa-mail-01:~# wc -l spamassassin-bayes-db
2340494 spamassassin-bayes-db
14:21 on February 1st, 2010
Sembra funzionare perfettamente, molto meglio del training che avevo fatto io a spamassassin.
Grazie mille!!
Ste.
p.s.
rispondendo a riccardo nel caso serva a qualcuno che passa per di qui: il database lo scarichi dove vuoi, poi è il comando sa-learn che si arrangia!
10:25 on September 1st, 2008
Non ci capisco molto. Il mi oserver di posta usa SA. Ho individuato nella rooth del sistema la directory spamassassin. Devo caricare lì il DB? Dove inserisco i comandi indicati, per caso nel file user_prefs? Grazie
16:39 on April 23rd, 2008
Uhm…a quanto pare, nel postare si mangia i doppi trattini…forse il problema è quello allora :-)
16:39 on April 23rd, 2008
Solo un piccolo appunto, il comando esatto è:
sa-learn –restore nomefile
quindi “restore” con due trattini “–“.
Ottimo db ;-).
Grazie.
Gio.
09:56 on February 6th, 2008
[…] e piu’ precisamente le RBL (Real-time Blackhole List) o DNSBL. Avevo gia’ parlato di come usare i filtri bayes di Spamassassin, questa invece e’ un’altra soluzione meno invasiva per il sistema e molto piu’ […]
08:31 on March 13th, 2007
[…] posta) o appena arrivato (casella email) all’utente finale, io ho provato a dare una mano a come configurare i filtri bayesiani per eliminare lo spam, ma e’ plausibile pensare che serva qualcosa che lo blocchi a monte, prima di arrivare ad […]
10:02 on February 27th, 2007
Ottimo :)
Lo provo subito…