URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 82500
[ Назад ]

Исходное сообщение
"Защита сайта от выкачивания"

Отправлено Frei , 21-Окт-08 18:45 
Здравствуйте.

Столкнулся со следующей проблемой:
Есть некоторый сайт site.ru, а второй сайт site2.ru периодически производит незаконное копирование первого сайта и размещает скопированный контент у себя.

По логам я посмотрел с какого вероятно происходит выкачивание, так же закрою доступ с ip адреса site2.ru.

Что ещё можно сделать для защиты контента на site.ru? Есть ли какие то программные решения чтобы вычислять что проичходит выкачивание информации и прекратить этот процесс?

Заранее благодарен.


Содержание

Сообщения в этом обсуждении
"Защита сайта от выкачивания"
Отправлено Anonym , 21-Окт-08 22:02 
>[оверквотинг удален]
>первого сайта и размещает скопированный контент у себя.
>
>По логам я посмотрел с какого вероятно происходит выкачивание, так же закрою
>доступ с ip адреса site2.ru.
>
>Что ещё можно сделать для защиты контента на site.ru? Есть ли какие
>то программные решения чтобы вычислять что проичходит выкачивание информации и прекратить
>этот процесс?
>
>Заранее благодарен.

Я рыдаю ))))))))))))))))


"Защита сайта от выкачивания"
Отправлено const , 22-Окт-08 00:52 
>Я рыдаю ))))))))))))))))

А зря. Это ж DRM - смотреть можно, а скопировать нельзя. Здравый смысл подсказывает, что такое невозможно, но суровая реальность настойчиво твердит обратное... (не совсем обратное, но что-то в ту сторону)


"Защита сайта от выкачивания"
Отправлено Grey , 22-Окт-08 00:59 
>>Я рыдаю ))))))))))))))))
>
>А зря. Это ж DRM - смотреть можно, а скопировать нельзя. Здравый
>смысл подсказывает, что такое невозможно, но суровая реальность настойчиво твердит обратное...
>(не совсем обратное, но что-то в ту сторону)

а когда вы смотрите контент, вы его не выкачиваете? :)
однако .....

это как у меня клиенты ... "если я просто сайты смотрю - это ж значит я ничего не качаю и значит не плачу?"


"Защита сайта от выкачивания"
Отправлено Frei , 22-Окт-08 10:35 
Уважаемые, удивлён скупостью вашего ума и невнимательным прочтением вопроса.

Обращаю ваше внимание что я НЕ спрашиваю как защитить контент одной конкретной страницы от скачивания, прочтения и сохранения, меня интересует как выявить выкачивание всего сайта и блокировка такого выкачивания.

Обращаю ваше внимание так же на то что при выкачивании сайта (если вы конечно делали что то подобное в жизни) происходит быстро и выполняется много запросов в секунду (да и вообще). При нормальном (человеческом) просмотре сайта такой активности быть не может.


Так вот ещё раз вопрос: как обнаружить аномальную активность в скачивании страниц сайта (обращений к сайту) и заблокировать скачивающего?


"Защита сайта от выкачивания"
Отправлено Grey , 22-Окт-08 10:50 
>[оверквотинг удален]
>всего сайта и блокировка такого выкачивания.
>
>Обращаю ваше внимание так же на то что при выкачивании сайта (если
>вы конечно делали что то подобное в жизни) происходит быстро и
>выполняется много запросов в секунду (да и вообще). При нормальном (человеческом)
>просмотре сайта такой активности быть не может.
>
>
>Так вот ещё раз вопрос: как обнаружить аномальную активность в скачивании страниц
>сайта (обращений к сайту) и заблокировать скачивающего?

Про наш ум - это у Вас лихо получается ... ну да ладно ...
а по поводу Вашего вопроса ... ну сказать можно только одно ... смотрите в логи веб-сервера ... и делайте выводы ... выкачать сайт можно и не за один раз ... а к примеру по страничке за сутки ... отловите кто выкачивает .. .или закройет вообще сайт чтоб не было ни у кого доступа к нему ... тогда и выкачивать (получать контент) не смогут :)

Для начала разделите понятия "выкачивать" и "смотреть" ... объясниет мне в чём тут разница, потом будем обсуждать суть вопроса :)


"Защита сайта от выкачивания"
Отправлено Frei , 22-Окт-08 12:37 
Уважаемый, Grey, предыдущее моё сообщение к вашему ответу не относилось.


"Защита сайта от выкачивания"
Отправлено Frei , 22-Окт-08 11:09 
Когда у меня возник вопрос, который я сейчас решаю, я естественно сразу понял что полностью защититься не получиться, но например защитить сайт от быстрой "в лоб" выкачки должно получиться.

Если быстрое выкачивание будет прикрыто то останется только медленное, как вы и сказали по одной страничке. Но такую активность можно отследить по логам, пусть даже и в полуручном режиме.

Вот я и задаюсь вопросом: как отследить быстрое выкачивание - т.е. большое количество запросов к сайту и потом заблокировать этот IP, и как лучше организовать анализ логов на предмет постоянных (систематических) обращений?

P.S. Отвечая на ваш вопрос: разныцы между просмотром и выкачиванием на моо взгляд нет.


"Защита сайта от выкачивания"
Отправлено maxdukov , 22-Окт-08 12:31 
>[оверквотинг удален]
>Если быстрое выкачивание будет прикрыто то останется только медленное, как вы и
>сказали по одной страничке. Но такую активность можно отследить по логам,
>пусть даже и в полуручном режиме.
>
>Вот я и задаюсь вопросом: как отследить быстрое выкачивание - т.е. большое
>количество запросов к сайту и потом заблокировать этот IP, и как
>лучше организовать анализ логов на предмет постоянных (систематических) обращений?
>
>P.S. Отвечая на ваш вопрос: разныцы между просмотром и выкачиванием на моо
>взгляд нет.

как вариант - создание страниц динамически.
2 варианта -
пароноидальный, через аплет, который сам заберет данные с сервера и покажет на экране
умеренный - страницы делаем через CGI/PHP, в результате у выкачаного сайта ссылки на на страницы, а на скрипт. подозреваю, что умная качалка этот вариант обойдет.


"Защита сайта от выкачивания"
Отправлено Jakut , 22-Окт-08 15:02 
такая схема:
   1.влепить ссылку на нескольких страницах или хоть на всех, на которую человек не кликнет;
   2.банить клиента на сутки-двое если от него был запрос на нечеловекокликательный линк.

жду критику этого метода


"Защита сайта от выкачивания"
Отправлено dev , 22-Окт-08 15:09 
>такая схема:
>   1.влепить ссылку на нескольких страницах или хоть на всех,
>на которую человек не кликнет;
>   2.банить клиента на сутки-двое если от него был запрос
>на нечеловекокликательный линк.
>
>жду критику этого метода

но не забыть про существование Гугла&Ко


"Защита сайта от выкачивания"
Отправлено Jakut , 22-Окт-08 15:22 

>но не забыть про существование Гугла&Ко

для гугла&ко положить сайтмап


"Защита сайта от выкачивания"
Отправлено Frei , 22-Окт-08 16:06 
>
>>но не забыть про существование Гугла&Ко
>
>для гугла&ко положить сайтмап

Да кстати этим товарищам я хочу вообще разрешить всё качачть - добавить их так сказать в белый лист


"Защита сайта от выкачивания"
Отправлено Frei , 22-Окт-08 16:04 
>жду критику этого метода

)))) Вот она:

Есть вероятность что пока дело дойдёт до этой страницы все остальные уже будут выкачены и бан на 1 - 2 дня просто ни к чему не приведёт - через 1-2 недели, когда скачка повториться всё будет также (всё выкачено и потом дело дойдёт до этой страницы).


"Защита сайта от выкачивания"
Отправлено const , 23-Окт-08 08:36 
>Есть вероятность что пока дело дойдёт до этой страницы все остальные уже
>будут выкачены и бан на 1 - 2 дня просто ни
>к чему не приведёт - через 1-2 недели, когда скачка повториться
>всё будет также (всё выкачено и потом дело дойдёт до этой
>страницы).

Так надо плохую ссылку не в глубине сайта один раз делать, а на каждой странице и не по одному разу :)

Развитие идеи: тестовые ссылки можно делать в виде <a class="trap" href="...">...</a> и жабоскриптом при загрузке их все выносить. Думаю, качалки скрипты не выполняют.


"Защита сайта от выкачивания"
Отправлено Frei , 26-Окт-08 17:16 
>Развитие идеи: тестовые ссылки можно делать в виде <a class="trap" href="...">...</a> и жабоскриптом при загрузке их все выносить. Думаю, качалки скрипты не выполняют.

Впринципе идея мне начинает нравиться :)

Попробую её ещё раз изложить полностью, может кто то найдёт ошибку:
1. На каждой странице делаем ссылку на некоторую страницу, ссылка такая, чтобы пользователь по ней не смог перейти - только скрипт (машина).

2. Эта страница - это скрипт, который вносит в чёрный список всех, кто на неё попал.

3. CMS сайта модифицируется так чтобы при каждом обращении проверять наличие данного "просителя" в чёрном списке.

4. Если он там есть, то показать ему шиш. Если всё хорошо, то выдать страницу.

У меня только есть один вопрос - как лучше делать, так как описал я (средствами CMS) или у апача есть свой чёрный список?


"Защита сайта от выкачивания"
Отправлено angra , 26-Окт-08 05:50 
Важный момент, который забывают при аргументе "просмотреть=скачать", это код исполнимый на стороне клиента, то бишь js, vbs, flash, java, silverlight итд. Обходится это через управление настоящим браузером типа IE, ообычные качалки типа wget, lwp, teleport итд не умеют исполнять подобное. Еще более надежной защитой являются "цифры на картинке", тут даже управление браузером не поможет.

"Защита сайта от выкачивания"
Отправлено Frei , 26-Окт-08 17:18 
Вот кстати по поводу картинок:

У Гугла и Яндекса реализована защита, о которой я говорю. Если к поисковику идёт очень много запросов от одного клиента, то ему предлагают сначала ввести код изображённый на картинке.

Вот интересно как это сделано? Средствами чего? Можно ли и мне это как то сделать?


"Защита сайта от выкачивания"
Отправлено PavelR , 26-Окт-08 18:11 
>Вот кстати по поводу картинок:
>
>У Гугла и Яндекса реализована защита, о которой я говорю. Если к
>поисковику идёт очень много запросов от одного клиента, то ему предлагают
>сначала ввести код изображённый на картинке.
>
>Вот интересно как это сделано? Средствами чего? Можно ли и мне это
>как то сделать?

можно. пишите свои скрипты.


"Защита сайта от выкачивания"
Отправлено Pahanivo , 26-Окт-08 20:23 
МММ копирайтить контент а затем устраивать судебные иски )



"сайта Зашита"
Отправлено Andrey Mitrofanov , 27-Окт-08 09:34 
>вести код изображённый на картинке.
>
>Вот интересно как это сделано? Средствами чего? Можно ли и мне это
>как то сделать?

См.: интернет, ключевое слово "captcha".


"Защита сайта от выкачивания"
Отправлено Guest , 27-Окт-08 15:46 
Для начала узнай все что можно о нападающем. Диапазон IP, user agent, частоту запросов, время обхода, глубину обхода и т.д., посмотри через какое время после обхода новая информация появляется на вражеском сайте. Если враг не шибко умен и не проверяет обновления вручную, отдай им целый сайт с фотками экскрементов, различных личинок и червей и прочей гадости, а вместо текста - матерные частушки. Десять раз подумают, прежде чем еще раз качать.

А просто защититься от обхода роботами можно кучей способов.
Фильтры по IP/UA не эффективны, зато хорошо работают ссылки-ловушки и просто отсечение по частоте запросов. Поисковики можно занести в whitelist по IP, см., например, http://chceme.info/ips. Скорее всего это не полный список, но вручную или даже автоматически пополнять whitelist на основе данных из whois - не проблема.

Javascript защита - плохой вариант, ибо сложна, в любом случае ударит по части легальных пользователей, и все равно потребует whitelist для поисковиков.


"Защита сайта от выкачивания"
Отправлено Frei , 27-Окт-08 16:42 
Спасибо за развёрнутый ответ.

Идея с экскрементами очень понравилась и позабавила )))) Живо представил удивление на лице "врага" ))))

Я вот склоняюсь к варианту с ссылками ловушками. Буду пробовать.


"Защита сайта от выкачивания"
Отправлено anonymous , 28-Окт-08 08:32 
>Спасибо за развёрнутый ответ.
>
>Идея с экскрементами очень понравилась и позабавила )))) Живо представил удивление на
>лице "врага" ))))

Лучше отдавать ему содержимое vesna.yandex.ru.

>Я вот склоняюсь к варианту с ссылками ловушками. Буду пробовать.

Очень хороший, годный вариант.  Не забудьте только про rel="nofollow".


"Защита сайта от выкачивания"
Отправлено Guest , 28-Окт-08 16:51 
>Не забудьте только про rel="nofollow".

Это убивает всю идею, потому что ничто не мешает врагу также учитывать nofollow. Поэтому whitelist.


"Защита сайта от выкачивания"
Отправлено makoviy , 06-Фев-09 03:07 
>[оверквотинг удален]
>
>А просто защититься от обхода роботами можно кучей способов.
>Фильтры по IP/UA не эффективны, зато хорошо работают ссылки-ловушки и просто отсечение
>по частоте запросов. Поисковики можно занести в whitelist по IP, см.,
>например, http://chceme.info/ips. Скорее всего это не полный список, но вручную или
>даже автоматически пополнять whitelist на основе данных из whois - не
>проблема.
>
>Javascript защита - плохой вариант, ибо сложна, в любом случае ударит по
>части легальных пользователей, и все равно потребует whitelist для поисковиков.

Отличный совет про подмену страниц! Появился у меня сайт-двойник, ежедневно выкачивает объявления с моего сайта. Сейчас я им предоставлю "нужную" информацию для размещения :)

А по поводу отображения картинки при большом количестве запросов - кто-нибудь реализовал?


"Защита сайта от выкачивания"
Отправлено Frei , 06-Фев-09 09:01 
Сейчас у нас работает защита со скрытой ссылкой - помогает на 100%. Сайт двойник, как не пытался качать постоянно банится.

На мой взгляд другой защиты даже и не нужно. Нормальных пользователей такой алгоритм заблокировать не может.

При реализации главное не забывайте сделать Белый лист, в который внесите все нужные поисковики.


"Защита сайта от выкачивания"
Отправлено makoviy , 06-Фев-09 10:59 
>Сейчас у нас работает защита со скрытой ссылкой - помогает на 100%.
>Сайт двойник, как не пытался качать постоянно банится.
>
>На мой взгляд другой защиты даже и не нужно. Нормальных пользователей такой
>алгоритм заблокировать не может.
>
>При реализации главное не забывайте сделать Белый лист, в который внесите все
>нужные поисковики.

Я так понимаю, что у Вас сайт выкачивают при помощи программ-граберов? У меня забирают конкретные объявления, как я понимаю, при помощи самописного парсера. Ведь парсер не ходит по ссылкам (сам такой писал когда-то).
Например, есть сайт с объявлениями. Парсеру достаточно зайти на страницу с результатами поиска, а далее просканировать этот список, найти в нем урлы конечных объявлений, зайти на них и забрать информацию в соответствии с версткой. Вот и все. То есть он изначально не ходит по крытым ссылкам и т.д.

Так что, думаю, что мне поможет только ввод картинки при большом числе запросов, т.к. за 15 минут они выкачивают до 5-10к объявлений. Вот ищу как это сделать...


"Защита сайта от выкачивания"
Отправлено makoviy , 06-Фев-09 14:28 
Кстати, установил отлов по ссылкам. Вот это тема! Уже Яху попался:)) И один человечек, который пытался выкачать сайт. Работает!

Но картинку по кол-ву запросов тоже нужно поставить...