URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 69857
[ Назад ]

Исходное сообщение
"Русские правила для SpamAssassin"

Отправлено AlanMakoev , 27-Окт-06 12:31 
Приглашаю всех интересующихся принять участие в тестировании правил SpamAssassin, предназначенных для фильтрования русскоязычного спама. Файл с правилами можно загрузить с адреса:
http://sa-russian.narod.ru/99_russian_re.cf
Список ключевых фраз, отлавливаемых правилами, находится в файле:
http://sa-russian.narod.ru/tokens
Замечания, пожелания, советы прошу оставлять здесь или отправлять на почту sa-russian@yandex.ru


Содержание

Сообщения в этом обсуждении
"Русские правила для SpamAssassin"
Отправлено s2 , 27-Окт-06 16:27 
>Приглашаю всех интересующихся принять участие в тестировании правил SpamAssassin, предназначенных для фильтрования
>русскоязычного спама. Файл с правилами можно загрузить с адреса:
>http://sa-russian.narod.ru/99_russian_re.cf
>Список ключевых фраз, отлавливаемых правилами, находится в файле:
>http://sa-russian.narod.ru/tokens
>Замечания, пожелания, советы прошу оставлять здесь или отправлять на почту sa-russian@yandex.ru

чето я не понял куда эти файлы пихать?


"Русские правила для SpamAssassin"
Отправлено AlanMakoev , 27-Окт-06 16:44 
>чето я не понял куда эти файлы пихать?
Файл 99_russian_re.cf - в каталог, где находятся остальные наборы правил - обычно это /usr/share/spamassassin (если при сборке Spamassassin'а не использовался параметр PREFIX). В этом каталоге находятся файлы с именами вида NN_rulesetname.cf.
Файл tokens указан только для справки. Его можно вообще не смотреть.
После этого следует перезапустить spamd (killall -HUP spamd).


"Русские правила для SpamAssassin"
Отправлено s2 , 27-Окт-06 16:48 
>>чето я не понял куда эти файлы пихать?
>В каталог, где находятся остальные наборы правил - обычно это /usr/share/spamassassin (если
>при сборке Spamassassin'а не использовался параметр PREFIX). В этом каталоге находятся
>файлы с именами вида NN_rulesetname.cf.
>После этого следует перезапустить spamd (killall -HUP spamd).
угу есть такое
и tokens тудаже?


"Русские правила для SpamAssassin"
Отправлено AlanMakoev , 27-Окт-06 16:51 
>и tokens тудаже?
нет, токенс - только для справки
гы, поздновато предыдущий пост дополнил :))


"Русские правила для SpamAssassin"
Отправлено dawnshade , 27-Окт-06 18:15 
>Приглашаю всех интересующихся принять участие в тестировании правил SpamAssassin, предназначенных для фильтрования
>русскоязычного спама. Файл с правилами можно загрузить с адреса:
>http://sa-russian.narod.ru/99_russian_re.cf
>Список ключевых фраз, отлавливаемых правилами, находится в файле:
>http://sa-russian.narod.ru/tokens
>Замечания, пожелания, советы прошу оставлять здесь или отправлять на почту sa-russian@yandex.ru


мда, вот она непризнанная гениальность. а назвать по человечески никак было?
как потом отлавливать срабатывания скажем правила BODY_WIN1251_69, говорящемго всем видимо за себя.


"Русские правила для SpamAssassin"
Отправлено s2 , 27-Окт-06 18:56 
>мда, вот она непризнанная гениальность. а назвать по человечески никак было?
>как потом отлавливать срабатывания скажем правила BODY_WIN1251_69, говорящемго всем видимо за себя.
>


согласен (:
ибо ниче не понятно может афтар исправит

зато работает даже ончень ничего


"Русские правила для SpamAssassin"
Отправлено AlanMakoev , 28-Окт-06 12:27 
>а назвать по человечески никак было?
Нет, нельзя :-b
Я планирую настрочить скрипт, который будет регулярно сканить maillog или spamd.log и подсчитывать число попаданий для каждого правила (чтобы вовремя удалять из набора потерявшие актуальность правила). Для этого желательно, чтобы название правила соответствовало некоему легко распознаваемому шаблону.

>как потом отлавливать срабатывания скажем правила BODY_WIN1251_69
Сейчас на http://sa-russian.narod.ru/ выложен файл 99_russian_re.cf, в котором перед каждым правилом в комментарии указан токен, который это правило отлавливает.
Что касается названий типа, к примеру BODY_OBHOD_FILTROV для фразы "обход фильтров" (и ее мутантов) - чуть попозже что-нибудь придумаю.


"Русские правила для SpamAssassin"
Отправлено dawnshade , 28-Окт-06 14:38 
>>как потом отлавливать срабатывания скажем правила BODY_WIN1251_69
>Сейчас на http://sa-russian.narod.ru/ выложен файл 99_russian_re.cf, в котором перед каждым правилом в
>комментарии указан токен, который это правило отлавливает.
>Что касается названий типа, к примеру BODY_OBHOD_FILTROV для фразы "обход фильтров" (и
>ее мутантов) - чуть попозже что-нибудь придумаю.


хорошо хоть так. после беглово просмотра, правда, выясняется что любые резюме технарей (и не только) попадут под ваши правила. начальные особенно.


"Русские правила для SpamAssassin"
Отправлено cryo , 09-Ноя-06 12:40 
Под какой лицензией Вы выпускаете файл правил?
Если Public Domain, укажите это явным образом, пожалуйста.

"Русские правила для SpamAssassin"
Отправлено cryo , 09-Ноя-06 12:50 
Под какой лицензией выпускается ваш файл правил?

"Русские правила для SpamAssassin"
Отправлено R4z0R , 18-Янв-07 16:26 
А как можно подправить "под себя" правила? Я так понимаю, что нужно изменить файл токенов
и потом сформировать сами правила?

"Русские правила для SpamAssassin"
Отправлено R4z0R , 28-Май-07 15:52 
Помогли здесь сделать скрипт для подсчета срабатываний правил, можно ещё добавить сортировку и много чего другого, но самы простой вариант вот:

count=""; #счетчик, пока нулевой

SPISOK1=""; # набор слов для поиска
SPISOK2=""; # список файлов, где нужно искать эти слова

file1="/home/test/test_rul"; # откуда берем имена правил
file2="/home/test/test_spam_list"; #откуда берем файлы писем

while [ 1 ]
do
read SPISOK1 || break # начинаем читать список имен правил пока не
закончится файл
    while [ 2 ]
        do
    read SPISOK2 || break #получаем имена писем пока
не закончится файл

    if cat /home/test/spam/$SPISOK2 | awk '$0~/$SPISOK1/'; then
       let count="$count+1"
    fi

    done < $file2
    echo $SPISOK1 " = "$count >> /home/test/itogi # после поиска выводим результат
done < $file1

З.Ы Правда срабатывания нужно делить на 2 (на каждое правило в хидере 2 записи, одна в списке сработавших, другая в списке правил с баллами)


"Русские правила для SpamAssassin"
Отправлено R4z0R , 10-Авг-07 10:45 
Вышеприведенный скрипт считает неправильно, переделал на нормальный вариант - этот работает точно:
#!/bin/sh
# проверяем наличие итогового файла, если нет, то создаем
ls -N /home/test/spam > /home/test/test_spam_list #подготавливаем список писем (заливаем весь спам в папку /home/test/spam)
ALL=/home/test/itogs #файл для итоговых значений
RULES1=""; # набор слов для поиска
SPAM2=""; # список файлов, где нужно искать эти слова
DIR="/home/test/spam"; #
rules="/home/test/test_rul"; # файл с именами правил (подготавливается заранее)
spam="/home/test/test_spam_list";# файл с именами файлов спама

#-------start grep rules name--------------#
while [ 1 ]
do
read RULES1 || break
        while [ 2 ]
        do
        read SPAM2 || break
        cat $DIR/$SPAM2 | awk '{if($0~/'${RULES1}'/) {print 1}}' >> t #если встречается название правила в письме, то в файл t пишем 1
        done < $spam
awk '{ s = s + $1} END {print ("'${RULES1}' = " s/3)}' t >> $ALL #суммируем все единицы из файла t и записываем итоговую строку для каждого правила в итоговый файл
echo -n > /home/test/t #очищаем счетчик для следующего имени правила

done < $rules

Понимаю что сделано коряво и можно было загонять всё в массив, но работает! Кто предложит лучше - буду только рад


"Русские правила для SpamAssassin"
Отправлено skoval , 10-Дек-08 14:34 
>Помогли здесь сделать скрипт для подсчета срабатываний правил, можно ещё добавить сортировку
>и много чего другого, но самы простой вариант вот:

Самый простой вариант воспользоваться уже готовыми утилитами, ссылки на которые есть в faq'е http://wiki.apache.org/spamassassin/StatsAndAnalyzers

Пока только http://www.rulesemporium.com/programs/sa-stats-1.0.txt
пользовался. Правила считает на ура.

А за работу спасибо большое :) Еще не примерял, но я SA недавно начал пользоваться, до внедрения third-party правил только недавно дозрел.


"Русские правила для SpamAssassin"
Отправлено Reboot , 12-Сен-08 12:33 
а для 3.2.5 есть у кого -нибудь правила?



"Русские правила для SpamAssassin"
Отправлено Serdg , 13-Сен-08 01:45 
>а для 3.2.5 есть у кого -нибудь правила?

файл с правилами подходит к любой версии, у меня он работает сейчас на последней



"Русские правила для SpamAssassin"
Отправлено Бармалей , 18-Сен-08 11:55 
>Приглашаю всех интересующихся принять участие в тестировании правил SpamAssassin, предназначенных для фильтрования
>русскоязычного спама. Файл с правилами можно загрузить с адреса:
>http://sa-russian.narod.ru/99_russian_re.cf
>Список ключевых фраз, отлавливаемых правилами, находится в файле:
>http://sa-russian.narod.ru/tokens
>Замечания, пожелания, советы прошу оставлять здесь или отправлять на почту sa-russian@yandex.ru

Подскажите как самому можно получать такие правила из своих фраз? (кусочек скрипта или утилиту которая генерит такие последовательности?)


"Русские правила для SpamAssassin"
Отправлено cryo , 18-Сен-08 16:24 
>Подскажите как самому можно получать такие правила из своих фраз? (кусочек скрипта
>или утилиту которая генерит такие последовательности?)

Анализируешь содержания писем, ищешь общие фразы, характерные для спама, на их основании пишешь регулярные выражения, оформляешь их в рулы по правилам SA.

К сожалению, волшебного скрипта написать-правила-для-всего-этого-спама.pl, пригодного для практического применения, не существует :)


"Русские правила для SpamAssassin"
Отправлено Serdg , 18-Сен-08 22:09 
>>Подскажите как самому можно получать такие правила из своих фраз? (кусочек скрипта
>>или утилиту которая генерит такие последовательности?)
>
>Анализируешь содержания писем, ищешь общие фразы, характерные для спама, на их основании
>пишешь регулярные выражения, оформляешь их в рулы по правилам SA.
>
>К сожалению, волшебного скрипта написать-правила-для-всего-этого-спама.pl, пригодного для практического применения, не существует :)
>

я вручную все делаю, додумался только сделать скрипт, который парсит весь спам и составляет список правил с количеством срабатываний - чтобы не терять актуальность, а фразы вставляю вручную в файл


"Русские правила для SpamAssassin"
Отправлено Бармалей , 19-Сен-08 04:50 
>>Подскажите как самому можно получать такие правила из своих фраз? (кусочек скрипта
>>или утилиту которая генерит такие последовательности?)
>
>Анализируешь содержания писем, ищешь общие фразы, характерные для спама, на их основании
>пишешь регулярные выражения, оформляешь их в рулы по правилам SA.
>
>К сожалению, волшебного скрипта написать-правила-для-всего-этого-спама.pl, пригодного для практического применения, не существует :)
>

Понятное дело :-) я не о том, у меня ситуация такова. Я написал правило, использовал кодировку KOI8-R потом сделал скрипт, который на основе имеющегося файла при помощи iconv делает еще два под cp1251 и UTF-8 (и меняет название правил конечно же). Однако не работает. В приведенном примере русские слова кодируются символами вида \x. Я с таким сталкивался но не знаю что это за кодировка и как получать ее. Вот мой вопрос как раз об этом и был, как получить из /\bспам(им|а) вам!/i строку вида (\xe....) как в примере.

(spamassassin --lint -D говорит что все нормально и пишет что правила подключились)


"Русские правила для SpamAssassin"
Отправлено arkady , 07-Окт-08 09:45 
>[оверквотинг удален]
>написал правило, использовал кодировку KOI8-R потом сделал скрипт, который на основе
>имеющегося файла при помощи iconv делает еще два под cp1251 и
>UTF-8 (и меняет название правил конечно же). Однако не работает. В
>приведенном примере русские слова кодируются символами вида \x. Я с таким
>сталкивался но не знаю что это за кодировка и как получать
>ее. Вот мой вопрос как раз об этом и был, как
>получить из /\bспам(им|а) вам!/i строку вида (\xe....) как в примере.
>
>(spamassassin --lint -D говорит что все нормально и пишет что правила подключились)
>

Я добавил в Mail/Spamassassin/Message.pm после use warnings;
#===========
use bytes;
#===========
в Mail/SpamAssassin/Plugin/Check.pm после use warnings; добавил
#=====================
use utf8;
use POSIX qw (locale_h);
POSIX::setlocale(&POSIX::LC_CTYPE,'ru_RU.UTF-8');
#=====================
в /etc/mail/spamassassin/local.cf
#=====================
normalize_charset 1
#=====================

Таблицы кодировки utf8 можно найти здесь: http://www.utf8-chartable.de/unicode-utf8-table.pl
И еще /i в хексах не работает (по крайней мере у меня не получилось), поэтому скажем русскую букву а я обозначаю как: (\xd0\x90)|(\xd0\xb0)|(\x40)|(\x41)|(\x61)
имеется ввиду: А а @ A a

а далее исключительно Ваше творчество.


"Русские правила для SpamAssassin"
Отправлено Бармалей , 08-Окт-08 09:49 
>[оверквотинг удален]
>normalize_charset 1
>#=====================
>
>Таблицы кодировки utf8 можно найти здесь: http://www.utf8-chartable.de/unicode-utf8-table.pl
>И еще /i в хексах не работает (по крайней мере у меня
>не получилось), поэтому скажем русскую букву а я обозначаю как: (\xd0\x90)|(\xd0\xb0)|(\x40)|(\x41)|(\x61)
>
>имеется ввиду: А а @ A a
>
>а далее исключительно Ваше творчество.

Спасибо за ответ, я разобрался с шестнадцатеричными кодировками, сделал две таблицы, для KOI8-R и cp1251 и на их основе написал скрипт переводящий токены вида (поп(а|ка)) в нужные строки вида (\x... Если интересно - могу выложить тут результат.

С UTF-8 тема так и повисла потому как там русские символы кодируются несколькими байтами. Одним словом я так и не разобрался с ним. Уповаю только на то, что писем в UTF-8 мало.


"Русские правила для SpamAssassin"
Отправлено Торопыжка , 21-Окт-08 13:05 
>Спасибо за ответ, я разобрался с шестнадцатеричными кодировками, сделал две таблицы, для
>KOI8-R и cp1251 и на их основе написал скрипт переводящий токены
>вида (поп(а|ка)) в нужные строки вида (\x... Если интересно - могу
>выложить тут результат.

Конечно, интересно, потому что подавляющая часть почты идет именнов  1251.

Кстати, при старте Amavis не читает этот файл в /usr/share/spamassasin/
Все тамошние читает, а вот этот - ни в какую ( я смотрю по логам Amavis-а).



"Русские правила для SpamAssassin"
Отправлено AlanMakoev , 22-Окт-08 20:49 
>Кстати, при старте Amavis не читает этот файл в /usr/share/spamassasin/
>Все тамошние читает, а вот этот - ни в какую ( я
>смотрю по логам Amavis-а).

У меня сейчас тоже Amavis (в том смысле, что amavisd-new) - когда он подгружает модуль SpamAssasin'а, он этот файл считывает. Может быть, этот файл просто по разрешениям недоступен юзеру, с именем которого бегает amavisd?
На всякий случай, добавьте в command-line options для amavisd ключик "-d debug,all" - этим он заставляет SpamAssassin писать дебаг в логи (для контроля работы правил я запускаю amavisd с ключём "-d info,rules", обычному пользователю, впрочем, и это не нужно).
Правда, для того, чтобы добиться дебага от SpamAssassin'а в syslog, пришлось влезть в текст самого SpamAssassin.pm (у меня он обитает в /usr/lib/perl5/site_perl/5.8.8/Mail) и сразу после строки "use Mail::SpamAssassin::Logger;" добавить строку "Mail::SpamAssassin::Logger::add(method => 'syslog', socket => 'unix', facility => 'mail');", без этого не хотел ничего писать ни в syslog, н вообще никуда.


"Русские правила для SpamAssassin"
Отправлено Торопыжка , 23-Окт-08 17:26 
Да нет, вроде те же разрешения.

Попробую настроить вывод в лог.



"Русские правила для SpamAssassin"
Отправлено skoval , 23-Дек-08 14:59 
>[оверквотинг удален]
>в Mail/SpamAssassin/Plugin/Check.pm после use warnings; добавил
>#=====================
>use utf8;
>use POSIX qw (locale_h);
>POSIX::setlocale(&POSIX::LC_CTYPE,'ru_RU.UTF-8');
>#=====================
>в /etc/mail/spamassassin/local.cf
>#=====================
>normalize_charset 1
>#=====================

Вот эти действия с последними версиями правил нужно выполнять.
Без этих добавок вроде все нормально, а с ними вот такие предупреждения возникают

$ spamassassin --lint
[70492] warn: Malformed UTF-8 character (unexpected non-continuation byte 0xe8, immediately after start byte 0xe9) in eval "string" at /var/db/spamassassin/3.002005/updates_spamassassin_org/20_advance_fee.cf, rule __FRAUD_GAN, line 1.
[70492] warn: Malformed UTF-8 character (unexpected non-continuation byte 0x5d, immediately after start byte 0xe8) in eval "string" at /var/db/spamassassin/3.002005/updates_spamassassin_org/20_advance_fee.cf, rule __FRAUD_GAN, line 1.


"Русские правила для SpamAssassin"
Отправлено skoval , 23-Дек-08 15:46 
Забыл знак вопроса поставить. Это я спрашивал нужно ли эти исправления сейчас делать.

"Русские правила для SpamAssassin"
Отправлено Tokamak , 14-Янв-09 14:32 
>>Подскажите как самому можно получать такие правила из своих фраз? (кусочек скрипта
>>или утилиту которая генерит такие последовательности?)
>
>Анализируешь содержания писем, ищешь общие фразы, характерные для спама, на их основании
>пишешь регулярные выражения, оформляешь их в рулы по правилам SA.
>
>К сожалению, волшебного скрипта написать-правила-для-всего-этого-спама.pl, пригодного для практического применения, не существует :)
>

Вот скрипт на PHP, работает с 4-я кодировками
http://www.spamassassin.tu2.ru


"Русские правила для SpamAssassin"
Отправлено AlanMakoev , 22-Окт-08 20:27 
Здравствуйте все!
Прошу прощения за долгое молчание - немного не до того было.
Сейчас на http://sa-russian.narod.ru выложен "причёсанный скрипт" для генерации правил, файл токенов, файл с правилами и краткие пояснения к файлу токенов.
Принципиальных изменений в списке токенов нет, но надеюсь вскорости обновить, расширить и углУбить.
Скрипт пришлось переписать, чтобы дружил с UTF-8, на моём 5.8.8 работает, вроде должен и на других работать - я старался писать так, чтобы данные обрабатывались побайтово, а не побуквенно.

"Русские правила для SpamAssassin"
Отправлено AlanMakoev , 31-Окт-08 22:19 
На http://sa-russian.narod.ru/ выложена очередная версия файла русских правил для SpamAssassin'а, новая версия скрипта и новый файл токенов.
Изменения в токенах внесены только в раздел, относящийся к порнографии, всё остальное - как прежде.
В скрипте добавлена возможность создавать в списке токенов правила, относящиеся не к русскоязычному содержимому, а к сообщению вообще (наличие смешанных цифр и букв, много восклицательных знаков, буквы, чередующиеся со знаками пунктуации).
Как всегда, жду Ваших замечаний на sa-russian@yandex.ru.


"Русские правила для SpamAssassin"
Отправлено R4z0R , 05-Ноя-08 12:49 
>На http://sa-russian.narod.ru/ выложена очередная версия файла русских правил для SpamAssassin'а, новая версия
>скрипта и новый файл токенов.
>Изменения в токенах внесены только в раздел, относящийся к порнографии, всё остальное
>- как прежде.
>В скрипте добавлена возможность создавать в списке токенов правила, относящиеся не к
>русскоязычному содержимому, а к сообщению вообще (наличие смешанных цифр и букв,
>много восклицательных знаков, буквы, чередующиеся со знаками пунктуации).
>Как всегда, жду Ваших замечаний на sa-russian@yandex.ru.

Что-то не совсем понятно - сейчас баллы не начисляются по-умолчанию для срабатывающего правила?



"Русские правила для SpamAssassin"
Отправлено AlanMakoev , 06-Ноя-08 21:25 
Баллы начисляются за комбинации сработавших правил, а не за отдельные правила. Например, кроме токена "порн" нужно наличие в письме какого-нибудь ещё токена (типа "видео", или "девочк", или "страстн", или наличие гиперссылки). Правила, которые срабатывают на какой-то один токен, сами по себе вклада в конечный score не дают (иначе SA будет отбрасывать письма, в которых упоминаются "с[порн]ый вопрос" или "у[порн]ый подшипник")
Правила, не относящиеся к русскому содержимому - это, например, наличие в тексте фрагмента "http://[[a-zA-Z0-9].-]", т.е. что в письме есть web-адрес (присутствует в 100% порноспама)

"Русские правила для SpamAssassin"
Отправлено R4z0R , 07-Ноя-08 17:56 
>Баллы начисляются за комбинации сработавших правил, а не за отдельные правила. Например,
>кроме токена "порн" нужно наличие в письме какого-нибудь ещё токена (типа
>"видео", или "девочк", или "страстн", или наличие гиперссылки). Правила, которые срабатывают
>на какой-то один токен, сами по себе вклада в конечный score
>не дают (иначе SA будет отбрасывать письма, в которых упоминаются "с[порн]ый
>вопрос" или "у[порн]ый подшипник")
>Правила, не относящиеся к русскому содержимому - это, например, наличие в тексте
>фрагмента "http://[[a-zA-Z0-9].-]", т.е. что в письме есть web-адрес (присутствует в 100%
>порноспама)

Я просто закинул новые правила вместо старых и сервак стал, процессов exim стало почти 2000, вместо обычных 10-50 и появилось дофига зомби


"Русские правила для SpamAssassin"
Отправлено Дмитрий , 22-Дек-08 22:57 
>На http://sa-russian.narod.ru/ выложена очередная версия файла русских правил для SpamAssassin'а, новая версия
>скрипта и новый файл токенов.
>Изменения в токенах внесены только в раздел, относящийся к порнографии, всё остальное
>- как прежде.
>В скрипте добавлена возможность создавать в списке токенов правила, относящиеся не к
>русскоязычному содержимому, а к сообщению вообще (наличие смешанных цифр и букв,
>много восклицательных знаков, буквы, чередующиеся со знаками пунктуации).
>Как всегда, жду Ваших замечаний на sa-russian@yandex.ru.

Огромное спасибо за ваш труд! Не знаю что бы я делал без этих правил.


"Русские правила для SpamAssassin"
Отправлено R4z0R , 23-Дек-08 12:12 
закинул новые правила от 10.11.08 в /usr/share/spamassassin в результате проблема с зомби-процессами и наращиванием процессов exim решилась, но письмо с темой:
"П...но с молоденькими девочками"
и текстом:
Трое негров е.ут молоденькую девку, тр..х с девочкой
http://p0rn0girl.net (тут адрес полностью буквами, это для форума версия)
и в итоге оно прошло с пометками:

X-Spam-Status: No, score=5.6 required=6.5 tests=AWL,BAYES_60,MISSING_MID,
    RDNS_NONE,RU_SPAM_KOI8,RU_SUSPECTED_SPAM_KOI8,URIBL_SBL autolearn=no
    version=3.2.5


"Русские правила для SpamAssassin"
Отправлено Дмитрий , 24-Дек-08 16:10 
Вот такое письмо не посчиталось спамом с новыми правилами:
======================================================
From: "Ксения" [mailto:detuxubigu@westaninsurance.com]
Sent: Wednesday, December 24, 2008 1:25 PM
To: ****
Subject: Хочешь оргазма, заходи сюда

ЕО737 Если ты хочешь неимоверных оргазмов, заходи сюда
ЛА290 Смотри, как девочки доводят себя до исступления
ЧО418 Они запихивают в киски игрушки
ХЕ346 Они дико трут клитора
ЕЕ262 Вот это по настоящему классный экшн!

НС807 http://******.ru
=====================================================

Вот что говорит СА:
Content analysis details:   (7.2 points, 6.0 required)

pts rule name              description
---- ---------------------- --------------------------------------------------
3.5 BAYES_99               BODY: Bayesian spam probability is 99 to 100%
                            [score: 1.0000]
1.8 MIME_BASE64_TEXT       RAW: Message text disguised using base64 encoding
0.1 RDNS_NONE              Delivered to trusted network by a host with no rDNS
1.1 FORGED_MUA_THEBAT_CS   Mail pretending to be from The Bat! (charset)
0.6 AWL                    AWL: From: address is in the auto white-list

А это дебаг при прогонке через "spamassassin -D -t < /qwe.eml &> /sdfgsdfg2.txt"

[10502] dbg: rules: running body tests; score so far=3.5
[10502] dbg: rules: compiled body tests
[10502] dbg: rules: ran body rule __RU_PORN_3A1_KOI8 ======> got hit: "▒▒▒▒▒▒"
[10502] dbg: rules: ran body rule __RU_PORN_2B4_KOI8 ======> got hit: " ▒▒▒▒"
[10502] dbg: rules: ran body rule __RU_MMEDIA_2_WIN1251 ======> got hit: "j"
[10502] dbg: rules: ran body rule __RU_MMEDIA_2_KOI8 ======> got hit: "j"
[10502] dbg: rules: ran body rule __NONEMPTY_BODY ======> got hit: "▒"
[10502] dbg: rules: ran body rule __HIGHBITS ======> got hit: "▒▒▒▒▒▒ "
[10502] dbg: rules: running uri tests; score so far=3.5
[10502] dbg: rules: compiled uri tests
[10502] dbg: rules: ran uri rule __DOS_HAS_ANY_URI ======> got hit: "h"
[10502] dbg: eval: stock info total: 0
[10502] dbg: rules: ran eval rule __TVD_MIME_ATT_TP ======> got hit (1)
[10502] dbg: rules: running rawbody tests; score so far=3.5
[10502] dbg: rules: compiled rawbody tests
[10502] dbg: rules: ran rawbody rule __SA_RUS_HLINK ======> got hit: "http://headroomjsrzu.chat.ru"
[10502] dbg: rules: ran rawbody rule __TVD_BODY ======> got hit: "▒▒73"
[10502] dbg: rules: ran eval rule __MIME_BASE64 ======> got hit (1)
[10502] dbg: rules: ran eval rule MIME_BASE64_TEXT ======> got hit (1)
[10502] dbg: rules: running full tests; score so far=5.253
[10502] dbg: rules: compiled full tests

Я считаю, что не нужно группировать вхождения слов и пр., а ловить их по отдельности.


"С введением этих правил нагрузка увеличилась процентов на 50."
Отправлено Movado , 10-Фев-09 14:02 
В итоге через минут 20-30 работы начинает глючить spamd и в итоге загрузка в top 4-4.5, постоянные сообщения типа

2009-02-10 13:52:40 1LWqAJ-0000uS-1z spam acl condition: all spamd servers failed
2009-02-10 13:52:40 1LWq8M-0000te-M7 spam acl condition: error reading from spamd socket: Connection reset by peer
2009-02-10 13:52:40 1LWqAL-0000uT-0Z spam acl condition: error reading from spamd socket: Connection reset by peer
2009-02-10 13:52:40 1LWqAL-0000uT-0Z spam acl condition: warning - spamd connection to 127.0.0.1, port 783 failed: Connection refused

Проблема решается перезапуском spamd.

Думаю уменьшить количество child процессов spamd, но по любому загрузка сильно возросла.

Зато каков эффект от фильтрации!


"С введением этих правил нагрузка увеличилась процентов на 50..."
Отправлено R4z0R , 10-Фев-09 16:21 
>[оверквотинг удален]
>reset by peer
>2009-02-10 13:52:40 1LWqAL-0000uT-0Z spam acl condition: warning - spamd connection to 127.0.0.1,
>port 783 failed: Connection refused
>
>Проблема решается перезапуском spamd.
>
>Думаю уменьшить количество child процессов spamd, но по любому загрузка сильно возросла.
>
>
>Зато каков эффект от фильтрации!

посмотрите мой пост №32 - так же делали?


"С введением этих правил нагрузка увеличилась процентов на 50..."
Отправлено Movado , 10-Фев-09 17:12 

>посмотрите мой пост №32 - так же делали?

Да, в /usr/local/share/spamassassin самые свежие правила. Пока что решил проблему введением только фильтрации по Win1251 - KOI-8 пока отключил на загруженных серверах. Но даже без KOI-8 загрузка по top-у около единицы, а раньше была в среднем 0.5

Железо вполне человеческое - интел Е2160 (core Duo)... Нагрузка - гиг почтового трафига в сутки, 40-50 тысяч реджектов по превышенному SpamScore или несуществующим получателям, в основную почтовую систему проползает 10-12 000 писем в день.

Эх, мне б аналог spamd, но не перловый, а сишный...


"Русские правила для SpamAssassin"
Отправлено Евгений , 30-Окт-13 02:36 
К сожалению, проект перестал поддерживаться. Порядком намучившись с русским спамом пришлось начать писать правила самим. Приглашаем протестировать и наши правила для фильтрации русскоязычного спама: http://www.wentor.ru/articles/spamassassin/