URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 37356
[ Назад ]

Исходное сообщение
"OpenNews: Борьба со спамом в картинках при помощи OCR[P]"

Отправлено opennews , 04-Май-07 13:47 
В материале (http://www.opennet.me/base/sec/antispam_ocr.txt.html) представлено решение по фильтрации спама внутри прикрепленных к письму картинок через плагин FuzzyOCR для SpamAssassin. Распознавание русскоязычного текста выполняется через сервис Microsoft Office Document Imaging (MODI).

URL: http://www.opennet.me/base/sec/antispam_ocr.txt.html
Новость: http://www.opennet.me/opennews/art.shtml?num=10686


Содержание

Сообщения в этом обсуждении
"Борьба со спамом в картинках при помощи OCR"
Отправлено oleg , 04-Май-07 13:47 
осталось эту штуку прикрутить к wget-у и автоматизировать Рапидшару.

"Борьба со спамом в картинках при помощи OCR"
Отправлено Crazer , 04-Май-07 17:08 
+1

"OCR против..."
Отправлено Andrey Mitrofanov , 08-Май-07 13:03 
Добро пожаловать в прекрасный мир http://google.ru/search?q=captcha+ocr Интернет: спам и порнография для полного Вашего удовольствия!

"OCR против..."
Отправлено sheltutmimo , 09-Май-07 01:01 
> Добро пожаловать в прекрасный мир http://google.ru/search?q=captcha+ocr Интернет: спам и порнография для полного Вашего удовольствия!

вроде еще нет софта который асилит сложные капчи, вроде тех что на гугле например, или я ошибаюсь?

PS уберите спам, порнотраф, ну и варезный траф из инета - провайдеры разорятся нах
гыгыгы


"Борьба со спамом в картинках при помощи OCR"
Отправлено close , 10-Май-07 16:53 
ssh -L YO.UR.IP.AD:PORT:rapidshare.de:80 YO.UR.IP.AD
в бровсере: proxy/port YO.UR.IP.AD/PORT
получаем бровсером ссылку, файло качаем вгетом.

P.S. на рапиде не тестил. но тестил успешно на ифолдере.
на рапиде, по-моему, с некоторого времени дают докачку раз в сутки. так что ссылку несложно выцарапать.


"Борьба со спамом в картинках при помощи OCR"
Отправлено SubGun , 04-Май-07 14:01 
Решение лишено всякого смысла в виду большой задержки при обработке одного письма.

"Борьба со спамом в картинках при помощи OCR"
Отправлено Oles , 04-Май-07 14:11 
Так категорично? Лишено совсем всякого смысла?

"Борьба со спамом в картинках при помощи OCR"
Отправлено SubGun , 04-Май-07 14:13 
Пипец, как лишено :)

"Распознавание идет только писем, которые содержат картинки ;)"
Отправлено enfogar , 04-Май-07 14:52 
Да и то, можно размером играться. Остальные письма не обрабатываются OCR. Да и задержка небольшик картинок - небольшая.

"Борьба со спамом в картинках при помощи OCR"
Отправлено Квагга , 04-Май-07 18:53 
А миль пардон!

Что? Кто-то ждет деловых писем, состоящих из двух ГИФов? :)


"Борьба со спамом в картинках при помощи OCR"
Отправлено blackp , 05-Май-07 14:09 
мусье видел корпоративные счета от мтс? там и три штуки не предел.

"Борьба со спамом в картинках при помощи OCR"
Отправлено Аноним , 04-Май-07 19:24 
Писем с двумя гифами,к сожалению, много... Картинки используются в подписях к письмам.
Из своего опыта использования FuzzyOCR могу сказать, что спама с картинками, который пробивается через обычные антиспам фильтры очень немного(на 4-5 тысяч спама в сутки, FuzzyOcr отсекает еще всего 2-3 письма,и то очень часто идущий на несуществующие адреса). А вот ошибается он очень часто,поэтому использовать его надо очень осторожно.

"Борьба со спамом в картинках при помощи OCR"
Отправлено Квагга , 04-Май-07 20:03 
Картинки в подписях???
Это круть!
Я думал, ЭЦП...

"Борьба со спамом в картинках при помощи OCR"
Отправлено stimpack , 04-Май-07 22:23 
Куча быдла в документооборотном (lotus, ms exchange и проч.) мыле ваяет монстроидальные подписи с телефонами, всеми остальными видами контактов, наилучшими пожеланиями в пяти случайных вариантах, прогнозами погоды на месяц и фотками своего любимого котёнка или ещё какой лабуды. Им невдомёк, что на фоне этого строчка из пары-тройки слов, на которые они горазды без использования технологии copy/paste выглядит комично и что такое письмецо загружает wan-трафик. Ещё более страшно это выглядит при цитировании и всяческих Re: и Fw:-вариантах исходного письма руками такого же быдла. Иногда мучительно хочется вытереть экран, получая подобную кучку мусора, особенно, если там мыслей на грош.

"Борьба со спамом в картинках при помощи OCR"
Отправлено 5trovi4 , 07-Май-07 12:01 
+100 Не в бровь, а в глаз!

"Борьба со спамом в картинках при помощи OCR"
Отправлено _Andrey_ , 08-Май-07 14:52 
Увы, таки "одаренных" очень много. Очень точно вы подметили.

"Борьба со спамом в картинках при помощи OCR"
Отправлено Basmach , 05-Май-07 01:14 
>Куча быдла в документооборотном (lotus, ms exchange и проч.) мыле ваяет монстроидальные подписи с телефонами, всеми остальными видами контактов, наилучшими пожеланиями в пяти случайных вариантах, прогнозами погоды на месяц и фотками своего любимого котёнка или ещё какой лабуды. Им невдомёк, что на фоне этого строчка из пары-тройки слов, на которые они горазды без использования технологии copy/paste выглядит комично и что такое письмецо загружает wan-трафик. Ещё более страшно это выглядит при цитировании и всяческих Re: и Fw:-вариантах исходного письма руками такого же быдла. Иногда мучительно хочется вытереть экран, получая подобную кучку мусора, особенно, если там мыслей на грош.

+1

Как нам это знакомо! И как это уже достало... Эххх


"Борьба со спамом в картинках при помощи OCR"
Отправлено karpoff , 07-Май-07 00:05 
Досталоо ещё как.. вот и ищу другие способы борьбы с этим.. похоже буду проводить конфиренции по поводу правильного использования почтовых ресурсов!

"Борьба со спамом в картинках при помощи OCR"
Отправлено SimSim , 07-Май-07 21:45 
А резать картинки не судьба? Довольно быстро отрезвляет. Если хотят слать, то в архив.

":)"
Отправлено Andrey Mitrofanov , 11-Май-07 15:54 
> вот и ищу другие способы борьбы с этим..

"""Здравствуйте! Пишет Вам Отдел Безопасности Почтовых Сообщений почтового сервера mmmm.aaa.iiiii.llll. Ваше письмо от $DATE, принятое сервером для передачи, рассмотрено Аффтоматом По Борьбе С Сетевым Безобразием и было признано содержащим подозрительные материалы: - .gif; - HTML formated; .... Письмо передано для рассмотрения в Отдел Великого Администратора для принятия окончательного решения о дальнейшей передаче Вашего письма. __Ждите__. Письмо будет рассмотрено Великим Администратором в течении... суток, месяца, года. Может быть двух.""