Bloccare lo spam con il mio database Bayes per Spamassassin

Ho deciso di pubblicare il mio database Bayes di Spamassassin (SA), contenente ormai piu’ di 300.000 voci di spam, che puo’ tornare utile a tutti i provider e/o persone con MTA in housing appena installati, per insegnare un po’ di cose al proprio spamassassin e non ritrovarsi con centinaia di mail di spam in casella.

Il funzionamento e’ molto semplice, se avete spamassassin installato nel vostro server avrete anche il comando sa-learn con il quale potrete dare in pasto il database e insegnare cosi’ al vostro SA tutto quello che ha imparato dalle mie mail taggate come spam.

Le statistiche Bayesiane si basano sull’evidenza empirica ovvero sulla raccolta di dati, l’esempio piu’ eclatante per spiegarvi meglio come funziona il ragionamento e’ questo:

Il sole è sorto e tramontato per miliardi di anni. Il sole è tramontato anche stanotte. Con un’elevata probabilità, il sole domani sorgerà.

Piu’ o meno nello stesso modo funzionano i filitri Bayes di SA, piu’ dati (spam/non spam) si accumulano e piu’ questo impara a marcare le nuove email come spam (se effettivamente lo sono), io devo dire che ho risolto gran parte dei miei problemi con questo strumento.

Ed ecco come fare:

Scaricate il database di Bayes

eseguite il comando (da root va benissimo):

tar xjvvf spamassassin-bayes-db.tar.bz2
sa-learn --restore spamassassin-bayes-db

Attenzione pero’ che il comando restore fa prima una clear del vostro attuale db (sempre che ce l’avete), per questo consiglio di usarlo soprattutto su sistemi nuovi.

Quando avra’ finito, eseguendo questo comando: spamassassin -D --lint, noterete che lo spam “imparato” e’ salito notevolmente greppando la riga corpus size. (es. corpus size: nspam = 311808, nham = 24042)
Non vi rimane che aggiustare lo score della vostra configurazione facendo delle prove, vi consiglio di tenere per una giornata il “view all message header” del vostro client di posta settato in modo da vedere con che livello di spam vengono taggate le vostre email e partire da quel punto.

Post simili:

If you enjoyed this post, please consider to leave a comment or subscribe to the feed and get future articles delivered to your feed reader.

8 Responses to “Bloccare lo spam con il mio database Bayes per Spamassassin”
  1. Pierino
    12:32 on October 11th, 2011

    Anche a voi sta una marea di tempo nel restore del db?

    root@alfa-mail-01:~# wc -l spamassassin-bayes-db
    2340494 spamassassin-bayes-db

  2. Ste
    14:21 on February 1st, 2010

    Sembra funzionare perfettamente, molto meglio del training che avevo fatto io a spamassassin.

    Grazie mille!!
    Ste.

    p.s.
    rispondendo a riccardo nel caso serva a qualcuno che passa per di qui: il database lo scarichi dove vuoi, poi è il comando sa-learn che si arrangia!

  3. riccardo
    10:25 on September 1st, 2008

    Non ci capisco molto. Il mi oserver di posta usa SA. Ho individuato nella rooth del sistema la directory spamassassin. Devo caricare lì il DB? Dove inserisco i comandi indicati, per caso nel file user_prefs? Grazie

  4. Giorgio
    16:39 on April 23rd, 2008

    Uhm…a quanto pare, nel postare si mangia i doppi trattini…forse il problema è quello allora :-)

  5. Giorgio
    16:39 on April 23rd, 2008

    Solo un piccolo appunto, il comando esatto è:

    sa-learn –restore nomefile

    quindi “restore” con due trattini “–“.

    Ottimo db ;-).
    Grazie.
    Gio.

  6. Qmail & Postfix: Using RBL check to prevent spam
    09:56 on February 6th, 2008

    […] e piu’ precisamente le RBL (Real-time Blackhole List) o DNSBL. Avevo gia’ parlato di come usare i filtri bayes di Spamassassin, questa invece e’ un’altra soluzione meno invasiva per il sistema e molto piu’ […]

  7. io, me e michele ^ 9 email su 10 sono di SPAM!
    08:31 on March 13th, 2007

    […] posta) o appena arrivato (casella email) all’utente finale, io ho provato a dare una mano a come configurare i filtri bayesiani per eliminare lo spam, ma e’ plausibile pensare che serva qualcosa che lo blocchi a monte, prima di arrivare ad […]

  8. PieR
    10:02 on February 27th, 2007

    Ottimo :)
    Lo provo subito…

Leave a comment

(required)

(required)


*

Categories