<?xml version="1.0" encoding="koi8-r"?>
<rss version="0.91">
<channel>
    <title>OpenForum RSS: Spamassassin и русский язык. Прямая фильтрация по словам.</title>
    <link>https://opennet.ru/openforum/vsluhforumID1/77201.html</link>
    <description>Доброго всем времени суток !&lt;br&gt;&lt;br&gt;&lt;br&gt;Вопрос такой, как сделатьчтоб SA всеже реагировал на &lt;br&gt;body            CUST_RUS_SEX            /плохое слово&amp;#124;очень плохое слово/i &lt;br&gt;Дело в том, что когда плохие слова на кирилице, то SA их не замечает :( а латиницей - нормально... парсит когда в windows-1251 приходят письма.&lt;br&gt;&lt;br&gt;ТЕ вопрос в следующем, как SA помочь понимать больше русскоязычных кодировок, не средствами баеса. а прямой фильтрацией ? &lt;br&gt;&lt;br&gt;Спасибо&lt;br&gt;</description>

<item>
    <title>нормальная нормализация в ненормальной обстановке (andribas)</title>
    <link>https://opennet.ru/openforum/vsluhforumID1/77201.html#12</link>
    <pubDate>Thu, 29 Jan 2009 09:50:10 GMT</pubDate>
    <description>&amp;gt;&#091;оверквотинг удален&#093;&lt;br&gt;&amp;gt;normalize_charset 1 &lt;br&gt;&amp;gt;#===================== &lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;Таблицы кодировки utf8 можно найти здесь: http://www.utf8-chartable.de/unicode-utf8-table.pl &lt;br&gt;&amp;gt;И еще /i в хексах не работает (по крайней мере у меня &lt;br&gt;&amp;gt;не получилось), поэтому скажем русскую букву а я обозначаю как: (&#092;xd0&#092;x90)&amp;#124;(&#092;xd0&#092;xb0)&amp;#124;(&#092;x40)&amp;#124;(&#092;x41)&amp;#124;(&#092;x61) &lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;имеется ввиду: А а &#064; A a &lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;а далее исключительно Ваше творчество. &lt;br&gt;&lt;br&gt;Сделал первый плагин на русском языке - http://www.gentoo.ru/node/13632&lt;br&gt;Когда закончу - regexp&apos;ы можно будет писать на русском и правила будут легче.&lt;br&gt;</description>
</item>

<item>
    <title>нормальная нормализация в ненормальной обстановке (arkady)</title>
    <link>https://opennet.ru/openforum/vsluhforumID1/77201.html#11</link>
    <pubDate>Tue, 07 Oct 2008 10:46:47 GMT</pubDate>
    <description>Я сделал так:&lt;br&gt;&lt;br&gt;Я добавил в Mail/Spamassassin/Message.pm после use warnings; &lt;br&gt;#===========&lt;br&gt;use bytes;&lt;br&gt;#===========&lt;br&gt;в Mail/SpamAssassin/Plugin/Check.pm после use warnings; добавил&lt;br&gt;#=====================&lt;br&gt;use utf8;&lt;br&gt;use POSIX qw (locale_h);&lt;br&gt;POSIX::setlocale(&amp;POSIX::LC_CTYPE,&apos;ru_RU.UTF-8&apos;);&lt;br&gt;#=====================&lt;br&gt;в /etc/mail/spamassassin/local.cf&lt;br&gt;#=====================&lt;br&gt;normalize_charset 1&lt;br&gt;#=====================&lt;br&gt;&lt;br&gt;Таблицы кодировки utf8 можно найти здесь: http://www.utf8-chartable.de/unicode-utf8-table.pl&lt;br&gt;И еще /i в хексах не работает (по крайней мере у меня не получилось), поэтому скажем русскую букву а я обозначаю как: (&#092;xd0&#092;x90)&amp;#124;(&#092;xd0&#092;xb0)&amp;#124;(&#092;x40)&amp;#124;(&#092;x41)&amp;#124;(&#092;x61)&lt;br&gt;имеется ввиду: А а &#064; A a&lt;br&gt;&lt;br&gt;а далее исключительно Ваше творчество.&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>нормальная нормализация в ненормальной обстановке (anonymous)</title>
    <link>https://opennet.ru/openforum/vsluhforumID1/77201.html#10</link>
    <pubDate>Wed, 05 Mar 2008 15:44:02 GMT</pubDate>
    <description>Вот ещё решил добавить кое-что.&lt;br&gt;Помните люди, бубен не нужен тому, кто владеет ru_RU.UTF-8.&lt;br&gt;&lt;br&gt;Можно ещё добавить в Config.pm это:&lt;br&gt;&lt;br&gt;use utf8;&lt;br&gt;&lt;br&gt;use POSIX qw (locale_h);&lt;br&gt;setlocale(LC_CTYPE,&apos;ru_RU.UTF-8&apos;);&lt;br&gt;&lt;br&gt;чтобы работали регулярные выражения вроде таких: /&#091;а-я&#093;&#091;abcekmnopruxy&#093;&#091;а-я&#093;/i&lt;br&gt;&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>Spamassassin и русский язык. Прямая фильтрация по словам. (Golub Mikhail)</title>
    <link>https://opennet.ru/openforum/vsluhforumID1/77201.html#9</link>
    <pubDate>Fri, 09 Nov 2007 17:07:19 GMT</pubDate>
    <description>&amp;gt;&amp;gt; body TEST123       /п©яп╬п╡п╣яп╨п╟&amp;#124;проверка/i&lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;По-моему, эта строка не является юникод-строкой... &lt;br&gt;&amp;gt;Попробуйте так: body TEST123       /п©яп╬п╡п╣яп╨п╟/i&lt;br&gt;&lt;br&gt;Пробовал. Изначально так и было.&lt;br&gt;Потом уже добавил /unicode_string&amp;#124;koi8-r_string/i&lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;И вообще, spamassassin --lint -d Вам в помощь. &lt;br&gt;&amp;gt;Больше ничем помочь не могу, конец связи, желаю победы. </description>
</item>

<item>
    <title>Spamassassin и русский язык. Прямая фильтрация по словам. (anonymous)</title>
    <link>https://opennet.ru/openforum/vsluhforumID1/77201.html#8</link>
    <pubDate>Fri, 09 Nov 2007 16:56:55 GMT</pubDate>
    <description>&amp;gt; body TEST123       /п©яп╬п╡п╣яп╨п╟&amp;#124;проверка/i&lt;br&gt;&lt;br&gt;По-моему, эта строка не является юникод-строкой... &lt;br&gt;Попробуйте так: body TEST123       /п©яп╬п╡п╣яп╨п╟/i&lt;br&gt;&lt;br&gt;И вообще, spamassassin --lint -d Вам в помощь. &lt;br&gt;Больше ничем помочь не могу, конец связи, желаю победы.&lt;br&gt;</description>
</item>

<item>
    <title>Spamassassin и русский язык. Прямая фильтрация по словам. (Golub Mikhail)</title>
    <link>https://opennet.ru/openforum/vsluhforumID1/77201.html#7</link>
    <pubDate>Fri, 09 Nov 2007 16:35:15 GMT</pubDate>
    <description>&amp;gt;&#091;оверквотинг удален&#093;&lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;&amp;gt;/usr/local/lib/perl5/site_perl/5.8.8/Mail/SpamAssassin/Plugin/Check.pm &lt;br&gt;&amp;gt;&amp;gt;вот тут ничего подобного не нашел :(&lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;Не нашли Вы этого там, потому что это как раз нужно туда &lt;br&gt;&amp;gt;добавить. &lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;&amp;gt;Да и еще, врядли важно, но у меня FreeBSD 6.2.&lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;Как же, не важно, у меня тоже такая. &lt;br&gt;&lt;br&gt;Добавил в /usr/local/lib/perl5/site_perl/5.8.8/Mail/SpamAssassin/Plugin/Check.pm &quot;use utf8;&quot;&lt;br&gt;В конфиге - &quot;normalize_charset 1&quot;&lt;br&gt;Рестарт spamd (version 3.2.3) - ругани нет.&lt;br&gt;Но не реагирует всеравно на такие правила:&lt;br&gt;body            TEST123       /п©яп╬п╡п╣яп╨п╟&amp;#124;проверка/i&lt;br&gt;score           TEST123       1.0&lt;br&gt;describe        TEST123       Test normalize_charset&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>Spamassassin и русский язык. Прямая фильтрация по словам. (anonymous)</title>
    <link>https://opennet.ru/openforum/vsluhforumID1/77201.html#6</link>
    <pubDate>Fri, 09 Nov 2007 14:11:11 GMT</pubDate>
    <description>&amp;gt;В результате, на данный момент, у меня распознаются письма только в koi8-r(u) &lt;br&gt;&amp;gt;и то только при normalize_charset 0 &lt;br&gt;&lt;br&gt;Так я и писал. Выхода мне видно два:&lt;br&gt;&lt;br&gt;1. &quot;normalize_charset 0&quot; и писать регулярные выражения с учетом всех кодировок&lt;br&gt;   (вот пример для koi8 и cp1251: /реклама&amp;#124;ТЕЛМБНБ/)&lt;br&gt;2. &quot;normalize_charset 1&quot; и писать регулярные выражение в кодировке utf-8&lt;br&gt;   (пример: /реклама/i) Но &quot;из коробки&quot; это сейчас не работает, нужно добавить &quot;use utf8&quot; в этот файл:&lt;br&gt;&lt;br&gt;&amp;gt;/usr/local/lib/perl5/site_perl/5.8.8/Mail/SpamAssassin/Plugin/Check.pm &lt;br&gt;&amp;gt;вот тут ничего подобного не нашел :(&lt;br&gt;&lt;br&gt;Не нашли Вы этого там, потому что это как раз нужно туда добавить.&lt;br&gt;&lt;br&gt;&amp;gt;Да и еще, врядли важно, но у меня FreeBSD 6.2.&lt;br&gt;&lt;br&gt;Как же, не важно, у меня тоже такая.&lt;br&gt;</description>
</item>

<item>
    <title>Spamassassin и русский язык. Прямая фильтрация по словам. (nightowl)</title>
    <link>https://opennet.ru/openforum/vsluhforumID1/77201.html#5</link>
    <pubDate>Fri, 09 Nov 2007 13:20:50 GMT</pubDate>
    <description>&amp;gt;Вы уж почитайте там про нормализацию. Она в недавней версии появилась только. &lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;В конфиге это выглядит так: &lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;normalize_charset 1 &lt;br&gt;&amp;gt;&lt;br&gt;&lt;br&gt;Спасибо, огромное, человеческое.&lt;br&gt;&lt;br&gt;&amp;gt;&#091;оверквотинг удален&#093;&lt;br&gt;&amp;gt;А когда есть нормализация, достаточно написать в юникоде - /реклама/i.  Spamassassin &lt;br&gt;&amp;gt;перекодирует сообщение в юникод и сравнит с регулярным выражением. &lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;Если номарлизация выключена (normalize_charset 0), всё работает, только нужно длинные и некрасивые &lt;br&gt;&amp;gt;регулярные выражения писать. &lt;br&gt;&amp;gt;Если нормализация включена, то у меня, например, просто никогда не находил русских &lt;br&gt;&amp;gt;(российских, для политкоректности) слов. Ни в какой кодировке. Если же написать, &lt;br&gt;&amp;gt;опять же, это работало только у меня, в файл Plugins/Check.pm &quot;use &lt;br&gt;&amp;gt;utf8&quot;, &lt;br&gt;&lt;br&gt;В результате, на данный момент, у меня распознаются письма только в koi8-r(u)&lt;br&gt;и то только при &lt;br&gt;&lt;br&gt;normalize_charset 0&lt;br&gt;&lt;br&gt;/usr/local/lib/perl5/site_perl/5.8.8/Mail/SpamAssassin/Plugin/Check.pm&lt;br&gt;&lt;br&gt;вот тут ничего подобного не нашел :(&lt;br&gt;Да и еще, врядли важно, но у меня F</description>
</item>

<item>
    <title>Spamassassin и русский язык. Прямая фильтрация по словам. (anonymous)</title>
    <link>https://opennet.ru/openforum/vsluhforumID1/77201.html#4</link>
    <pubDate>Fri, 09 Nov 2007 09:35:38 GMT</pubDate>
    <description>Вы уж почитайте там про нормализацию. Она в недавней версии появилась только.&lt;br&gt;В конфиге это выглядит так: &lt;br&gt;&lt;br&gt;normalize_charset 1&lt;br&gt;&lt;br&gt;&lt;br&gt;Под нормализацией я понимаю вот что. Скажем, слово &quot;реклама&quot;, может быть в в разных кодировках. Если нормализации нет, то чтобы его &quot;выловить&quot; пришлось бы писать что-то такое:&lt;br&gt;&lt;br&gt;body __REKLAMA /реклама&amp;#124;то же во второй кодировке&amp;#124;то же в третьей/&lt;br&gt;в коi8,cp1251,utf-8.&lt;br&gt;&lt;br&gt;Причем //i едва ли будет работать, так что придётся писать &#091;Рр&#093;еклама&amp;#124;РЕКЛАМА ...&lt;br&gt;&lt;br&gt;А когда есть нормализация, достаточно написать в юникоде - /реклама/i.  Spamassassin перекодирует сообщение в юникод и сравнит с регулярным выражением.&lt;br&gt;&lt;br&gt;&lt;br&gt;Если номарлизация выключена (normalize_charset 0), всё работает, только нужно длинные и некрасивые регулярные выражения писать.&lt;br&gt;Если нормализация включена, то у меня, например, просто никогда не находил русских (российских, для политкоректности) слов. Ни в какой кодировке. Если же написать, опять же, это работало только у меня, в файл Plugins/Check.pm &quot;use </description>
</item>

</channel>
</rss>
