Хотелось бы обменятся опытом по настройке SpamAssassin.
Особенно интересуют темы оптимизации скорости работы и улучшения блокирования русскоязычного спама.Вот мои текущие настройки:
# Допустимость русских букв
ok_languages en ru uk
ok_locales en ru# Запретим RBL, который слишком много времени проверяет
skip_rbl_checks 1# 2.7 - значение по умолчанию.
score SUBJ_ILLEGAL_CHARS 2.0
# 0.1
score MIME_HTML_ONLY 1.5
# 0.0
score HTML_MESSAGE 0.1
# 1.2
score MIME_HTML_MOSTLY 2.0
# 1.1
score FORGED_OUTLOOK_TAGS 1.8
# 2.0
score SUBJ_ILLEGAL_CHARS 1.5
# 4.3
score FROM_ILLEGAL_CHARS 3.0
# 0.1
score HTML_FONTCOLOR_RED 0.5score HTML_FONTCOLOR_UNSAFE 1.0
score FROM_STARTS_WITH_NUMS 1.0
>Хотелось бы обменятся опытом по настройке SpamAssassin.
>Особенно интересуют темы оптимизации скорости работы и улучшения блокирования русскоязычного спама.
># Допустимость русских букв
>ok_languages en ru uk
>ok_locales en ru
Эх... сколько народу ставит в локалях всякую фигню или вообще не ставит... Пришлось отключить.
А прочее - у меня упор на байесовскую оценку, только снижен порог autolearn до 7
В старых версиях SpamAssassin была полезная опция timelog_path для обнаружения узких мест по скорости, где-то после 2.60 ее убрали. Там была утечка памяти, вместо ее устранения просто вырезали весь timelog код :-(Остается тестировать при помощи --lint и смотреть --debug. Чтобы убедится, что торможение не из-за сети можно запустить с опцией -L.
я упор делаю на Байеса и автообучение - делаю общую для всех базу:
auto_learn 1
use_bayes 1
bayes_path /etc/mail/spamassassin/bayes/bayes
bayes_file_mode 0666
bayes_auto_learn_threshold_nonspam 0.3
bayes_auto_learn_threshold_spam 12.0
bayes_auto_learn 1обнулил те проверки, по которым сильно много русскоязычных писем ошибочно попадали как спам:
score SUBJ_FULL_OF_8BITS 0
score FROM_ILLEGAL_CHARS 0
score SUBJ_ILLEGAL_CHARS 0
score HEAD_ILLEGAL_CHARS 0
score HABEAS_SWE 0
score FORGED_IMS_TAGS 1плюс, там где нельзя ошибаться пользуюсь:
whitelist_to
whitelist_fromну и отдельно - это файлик для отлова проходящего отечественного спама:
то что пролезло - ищу слово, которое есть во всех однотипных письмах(семинар такой-то) и оставляю на неделю-другую. дальше эти письма отлавливаются по Байесу.p.s. еще выкачал с сайта асасина следующие правила, для отловли всяких виагр и прочей иностранной лабуды.:
99_FVGT_Tripwire.cf
antidrug.cf
backhair.cf
bigevil.cf
chickenpox.cf
evilnumbers.cf
tripwire.cf
weeds2.cf
>
>ну и отдельно - это файлик для отлова проходящего отечественного спама:
>то что пролезло - ищу слово, которое есть во всех однотипных письмах(семинар
>такой-то) и оставляю на неделю-другую. дальше эти письма отлавливаются по Байесу.Объясни поподробнее, как. А то сейчас большинство спама в Unicode чешет, и вычлинить из тела письма нужную фразу трудновато. И какие именно правила для этого используешь