В материале (http://www.opennet.me/base/sec/antispam_ocr.txt.html) представлено решение по фильтрации спама внутри прикрепленных к письму картинок через плагин FuzzyOCR для SpamAssassin. Распознавание русскоязычного текста выполняется через сервис Microsoft Office Document Imaging (MODI).URL: http://www.opennet.me/base/sec/antispam_ocr.txt.html
Новость: http://www.opennet.me/opennews/art.shtml?num=10686
осталось эту штуку прикрутить к wget-у и автоматизировать Рапидшару.
+1
Добро пожаловать в прекрасный мир http://google.ru/search?q=captcha+ocr Интернет: спам и порнография для полного Вашего удовольствия!
> Добро пожаловать в прекрасный мир http://google.ru/search?q=captcha+ocr Интернет: спам и порнография для полного Вашего удовольствия!вроде еще нет софта который асилит сложные капчи, вроде тех что на гугле например, или я ошибаюсь?
PS уберите спам, порнотраф, ну и варезный траф из инета - провайдеры разорятся нах
гыгыгы
ssh -L YO.UR.IP.AD:PORT:rapidshare.de:80 YO.UR.IP.AD
в бровсере: proxy/port YO.UR.IP.AD/PORT
получаем бровсером ссылку, файло качаем вгетом.P.S. на рапиде не тестил. но тестил успешно на ифолдере.
на рапиде, по-моему, с некоторого времени дают докачку раз в сутки. так что ссылку несложно выцарапать.
Решение лишено всякого смысла в виду большой задержки при обработке одного письма.
Так категорично? Лишено совсем всякого смысла?
Пипец, как лишено :)
Да и то, можно размером играться. Остальные письма не обрабатываются OCR. Да и задержка небольшик картинок - небольшая.
А миль пардон!Что? Кто-то ждет деловых писем, состоящих из двух ГИФов? :)
мусье видел корпоративные счета от мтс? там и три штуки не предел.
Писем с двумя гифами,к сожалению, много... Картинки используются в подписях к письмам.
Из своего опыта использования FuzzyOCR могу сказать, что спама с картинками, который пробивается через обычные антиспам фильтры очень немного(на 4-5 тысяч спама в сутки, FuzzyOcr отсекает еще всего 2-3 письма,и то очень часто идущий на несуществующие адреса). А вот ошибается он очень часто,поэтому использовать его надо очень осторожно.
Картинки в подписях???
Это круть!
Я думал, ЭЦП...
Куча быдла в документооборотном (lotus, ms exchange и проч.) мыле ваяет монстроидальные подписи с телефонами, всеми остальными видами контактов, наилучшими пожеланиями в пяти случайных вариантах, прогнозами погоды на месяц и фотками своего любимого котёнка или ещё какой лабуды. Им невдомёк, что на фоне этого строчка из пары-тройки слов, на которые они горазды без использования технологии copy/paste выглядит комично и что такое письмецо загружает wan-трафик. Ещё более страшно это выглядит при цитировании и всяческих Re: и Fw:-вариантах исходного письма руками такого же быдла. Иногда мучительно хочется вытереть экран, получая подобную кучку мусора, особенно, если там мыслей на грош.
+100 Не в бровь, а в глаз!
Увы, таки "одаренных" очень много. Очень точно вы подметили.
>Куча быдла в документооборотном (lotus, ms exchange и проч.) мыле ваяет монстроидальные подписи с телефонами, всеми остальными видами контактов, наилучшими пожеланиями в пяти случайных вариантах, прогнозами погоды на месяц и фотками своего любимого котёнка или ещё какой лабуды. Им невдомёк, что на фоне этого строчка из пары-тройки слов, на которые они горазды без использования технологии copy/paste выглядит комично и что такое письмецо загружает wan-трафик. Ещё более страшно это выглядит при цитировании и всяческих Re: и Fw:-вариантах исходного письма руками такого же быдла. Иногда мучительно хочется вытереть экран, получая подобную кучку мусора, особенно, если там мыслей на грош.+1
Как нам это знакомо! И как это уже достало... Эххх
Досталоо ещё как.. вот и ищу другие способы борьбы с этим.. похоже буду проводить конфиренции по поводу правильного использования почтовых ресурсов!
А резать картинки не судьба? Довольно быстро отрезвляет. Если хотят слать, то в архив.
> вот и ищу другие способы борьбы с этим.."""Здравствуйте! Пишет Вам Отдел Безопасности Почтовых Сообщений почтового сервера mmmm.aaa.iiiii.llll. Ваше письмо от $DATE, принятое сервером для передачи, рассмотрено Аффтоматом По Борьбе С Сетевым Безобразием и было признано содержащим подозрительные материалы: - .gif; - HTML formated; .... Письмо передано для рассмотрения в Отдел Великого Администратора для принятия окончательного решения о дальнейшей передаче Вашего письма. __Ждите__. Письмо будет рассмотрено Великим Администратором в течении... суток, месяца, года. Может быть двух.""