URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 94729
[ Назад ]

Исходное сообщение
"spamassassin, кириллица и bayes"

Отправлено Angelwings , 07-Июн-13 06:21 
Доброго времени суток!

История стара как мир, но много времени гугления, к сожалению, не дали результатов.

*** Общая схема работы почтового сервера по части антиспама: ***

На сервере стоит postfix + dovecot + amavis new + spamassassin.

Почтовый сервер те письма, которые помечены как spamassassin'ом "спам", автоматически кладет в папки .Spam клиентов.

Для spamassassin'а я написал cron-job, который по ночам схематически работает примерно так:
- скармливает sa-learn'у письма за последнюю неделю из всех каталогов .Spam как "spam";
- скармливает sa-learn'у прочитанные письма за последнюю неделю (кроме удаленных) из всех остальных каталогов как "ham";
- autolearn, соответственно, = disabled в конфигах.

В день получается примерно 10...30 новых ham-писем и порядка нескольких десятков-нескольких сотен spam-писем (когда как). Обучалка обучает spamassassin чуть больше месяца. Т.е. примерно скормлено порядка 400 ham-писем и несколько тысяч spam-писем.

У меня не стоят никакие русские правила для спамассасина (может это и неправильно, не знаю - если у кого есть ссылки на _свежие_ списки и отзывы по их использованию - буду признателен, потому что в сети я нашел только грубо говоря 2003го года, и побоялся их прикручивать).

*** Вопросы ***

Основной вопрос, собственно, таков: как увидеть, что bayes работает? Вот кусок из заголовков письма-спама:

X-Spam-Flag: Yes
X-Spam-Score: 5.112
tagged_above=-1000
required=3.5
tests=[FUZZY_XPILL=1.752, HTML_MESSAGE=0.001, URIBL_DBL_SPAM=1.7, URIBL_WS_SURBL=1.659]
autolearn=disabled

5.112 - это точная сумма всех спам-тестов, которые прошло письмо. Т.е. получается, что bayes как-то никак не используется, или как? Я подозреваю, что у меня тут большой провал в базовых знаниях по тематике, но я не сисадмин - просто надо было настроить всё, не бейте сильно :)

Вопрос 2: как bayes дружит с кириллицей? (и дружит ли вообще?)

В ответах просьба не сильно советовать что-то кардинально другое, ибо я и это-то настроил всё за несколько дней. А перестраивать будет гораздо сложнее, да и не вижу особого смысла.

В общем, помогите, пожалуйста, что-то "пнуть", чтобы эта система заработала, и в день не валилось по 50 писем спама в каждый ящик.

Заранее благодарю.


Содержание

Сообщения в этом обсуждении
"spamassassin, кириллица и bayes"
Отправлено Pahanivo , 07-Июн-13 07:49 
1) байс наскока япомню нужно включить в конфиге убийцы
2) там же указывается основные языки корреспонденции
3) о сработке байеса как положительной так и отрицательной можно узнать по соотв. тесту в списке (у вас его там нет вообще), и кстати в списке не сумма всех тестов, а сумма сработавших тестов.
3) о конфиге написано в манах

"spamassassin, кириллица и bayes"
Отправлено Angelwings , 07-Июн-13 15:56 
> 1) байс наскока япомню нужно включить в конфиге убийцы

стоит use_bayes 1

> 2) там же указывается основные языки корреспонденции

By default, SpamAssassin treats all languages equally. But you can configure it to parse each message and determine the language used. If it is not one of the "allowed" languages, SpamAssassin automatically adds a few points the message's spam score. If SpamAssassin is not sure about the language used, no points are assigned.

Это совершенно не то, что мне нужно.

> 3) о сработке байеса как положительной так и отрицательной можно узнать по
> соотв. тесту в списке (у вас его там нет вообще), и
> кстати в списке не сумма всех тестов, а сумма сработавших тестов.

"можно узнать по соотв. тесту в списке (у вас его там нет вообще)" - так вот, собственно, в том и вопрос - почему его там может не быть, должен ли он там быть и т.п.

За "сумма сработавших тестов" - спасибо, кэп :)

> 3) о конфиге написано в манах

RTFM - это отличный совет, иногда и сам его даю, но стараюсь всё же сначала хотя бы направить человека в нужную сторону.


"spamassassin, кириллица и bayes"
Отправлено reverb , 07-Июн-13 08:32 
>[оверквотинг удален]
> у меня тут большой провал в базовых знаниях по тематике, но
> я не сисадмин - просто надо было настроить всё, не бейте
> сильно :)
> Вопрос 2: как bayes дружит с кириллицей? (и дружит ли вообще?)
> В ответах просьба не сильно советовать что-то кардинально другое, ибо я и
> это-то настроил всё за несколько дней. А перестраивать будет гораздо сложнее,
> да и не вижу особого смысла.
> В общем, помогите, пожалуйста, что-то "пнуть", чтобы эта система заработала, и в
> день не валилось по 50 писем спама в каждый ящик.
> Заранее благодарю.

Как-то многовато спама доходит до СА. Вы постфикс настроили правильно? Что б на всех этапах проводил проверки smtp_hello_*, smtp_client_* и т.д. + rbl-листы.


"spamassassin, кириллица и bayes"
Отправлено Angelwings , 07-Июн-13 15:50 
> Как-то многовато спама доходит до СА. Вы постфикс настроили правильно? Что б
> на всех этапах проводил проверки smtp_hello_*, smtp_client_* и т.д. + rbl-листы.

"правильно" - понятие относительное. Как мог - настроил.

Но вопрос не в этом. "Много" или "не много" спама доходит до СА по логике должно влиять только на нагрузку, которую СА оказывает на сервер. В плане нагрузок у меня (пока) жалоб нет. У меня есть жалобы на то, что СА, судя по всему, совершенно не использует bayes. А как это проверить, и куда копать - без понятия.

Но на всякий случай могу выложить конфиги postfix'а (к вопросу о "много спама доходит"):

broken_sasl_auth_clients = yes
address_verify_sender = <>
smtpd_helo_required = yes
disable_vrfy_command = yes
strict_rfc821_envelopes = yes

smtpd_client_restrictions =
  permit_mynetworks
  permit_sasl_authenticated
  reject_unauth_pipelining

smtpd_helo_restrictions =
  permit_mynetworks
  permit_sasl_authenticated
  reject_invalid_helo_hostname
  reject_non_fqdn_helo_hostname
  permit

smtpd_sender_restrictions =
  permit_sasl_authenticated
  permit_mynetworks
  check_sender_access hash:/usr/local/etc/postfix/black-white-list
  reject_non_fqdn_sender
  reject_unknown_sender_domain
  permit

smtpd_recipient_restrictions =
  permit_mynetworks
  permit_sasl_authenticated
  reject_non_fqdn_recipient
  reject_unknown_recipient_domain
  check_recipient_access hash:/usr/local/etc/postfix/script-filter
  reject_unauth_destination
  reject_unlisted_recipient
  reject_rbl_client zen.spamhaus.org
  check_policy_service unix:private/spf
  permit