forum.opennet.ru - "Раздел полезных советов: Отсеивание AI-ботов на web-сервере через Cookie" (38)

"Раздел полезных советов: Отсеивание AI-ботов на web-сервере через Cookie"

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Раздел полезных советов: Отсеивание AI-ботов на web-сервере через Cookie"	+/–
Сообщение от auto_tips (?), 03-Ноя-25, 16:17
Для отсеивания ботов, агрессивно [[https://www.opennet.me/opennews/art.shtml?num=62925 индексирующих]] контент, игнорируя правила из robots.txt, можно воспользоваться тем, что многие боты запрашивают заранее предопределённый набор страниц и не передают Cookie, выставленные в ответ на прошлые запросы. Идея в том, чтобы при поступлении запроса проверять наличие определённой Cookie и если она отсутствует вместо запрошенного контента отдавать HTML-заглушку, возвращающую JavaScript-код для выставления Cookie и перенаправления пользователя на ту же страницу. При отправке запроса из браузера при первом входе запрос незаметно для пользователя будет проброшен через код установки Cookie. В промежуточном ответе используем код ошибки HTTP [[https://developer.mozilla.org/en-US/docs/Web/HTTP/Reference/... 418]], информирующий о нежелании обрабатывать автоматизированные запросы. Предложенный метод не отсеивает всех ботов, но проще в настройке и менее назойливый для посетителей, чем применение системы защиты от ботов [[https://github.com/TecharoHQ/anubis Anubis]], допускающей вход только после подбора на языке JavaScript значения, хэш SHA-256 от которого в сочетании с выданной сервером строкой содержит определённое число лидирующих нулей (данная задача требует ресурсов CPU для решения, но не требует ресурсов для проверки). Пример для http-сервера Caddy: example.com { # Проверка всех запросов на наличие Cookie "verified" @unverified not header Cookie verified # JavaScript-код, выдаваемый для запросов без Cookie "verified" handle @unverified { header Content-Type text/html respond <<EOF <script> setTimeout(() => { document.cookie = 'verified=1; Path=/;'; window.location.reload(); }, 1000); </script> EOF 418 } # Нормальное проксирование остальные запросов reverse_proxy localhost:3001 } Пример для nginx: location / { if ($cookie_verified = "") { add_header Content-Type text/html; return 418 '<script>setTimeout(() => {document.cookie = 'verified=1; Path=/;';window.location.reload();}, 1000);</script>'; } .... } URL: https://fxgn.dev/blog/anubis/ Обсуждается: http://www.opennet.me/tips/info/3287.shtml
Ответить \| Правка \| Cообщить модератору

Оглавление

Ну вот, теперь пейсaтeли таких ботов знают как это обойти Думаю лучше таким бота, повар (?), 16:17 , 03-Ноя-25, (1) –1

Не только не поможет, но и сделает хуже Сайт зарепортят в Cloudflare, поисковик, Аноним (4), 12:51 , 05-Ноя-25, (4) +1

У самого Cloudflare есть подобная возможность, которая отправляет ботов по беско, gl3ko (?), 11:29 , 12-Янв-26, (23)

По итогу Cloudflare будет единственным, кто имеет автоматизированный доступ к ко, Аноним (33), 09:17 , 28-Фев-26, (33) +1

Не можно а, не сомневайся - продаёт владельцам ИИ, естественно сами владельцы са, Аноним (37), 22:57 , 19-Апр-26, (37)

При обнаружении бота - слать его в tarpit, лимитировать число запросов десятью и, Tron is Whistling (?), 18:09 , 29-Ноя-25, (20) +7

Придет с другого IP Ну и - есть еще один интересный ньюанс Бывают боты которые , Vikarti Anatra (ok), 17:18 , 06-Фев-26, (27)

Мне как-то фиолетово, есть та же наружная и телевизионная реклама, которая SEO, Tron is Whistling (?), 21:00 , 06-Фев-26, (30)

А, он возмёт автоматически или обидется и заДДОСИТ тебя твоегохостера с нескольк, Аноним (37), 23:06 , 19-Апр-26, (38)

И получит примерно то же самое на несколько блоков 24 А возможно и blackhole п, Tron is Whistling (?), 08:31 , 23-Апр-26, (45)
Причём ныне это в основном всякие хостерские подсети ныне, т е да, можно и по A, Tron is Whistling (?), 08:33 , 23-Апр-26, (46)

Есть готовый модуль nginx testcookie Не забыть добавить нормальных ботов в белы, S_Paul (??), 18:14 , 04-Ноя-25, (2) +3

Что помешает ИИ или боту выдать себя за такого , Аноним (37), 23:08 , 19-Апр-26, (39)

Передавать куки с помощью requests или httpx тривиально Скрейпинг требует доста, Аноним (3), 20:45 , 04-Ноя-25, (3) –9

Владельцы сайтов не обязаны делать вам хорошо Скорее это вы должны думать, как , Аноним (7), 11:26 , 07-Ноя-25, (7) +4

А вы в суд обратитесь , Аноним (13), 03:20 , 12-Ноя-25, (13)
Вообще-то ПЛАТИТЬ ДОЛЖНЫ владельцы сайтов, чтобы на их сайты вообще кто-то заход, Васяний Стаканыч (-), 21:37 , 20-Дек-25, (22) –1
Внезапно - Cloudflare уже тестируют Pay-per-crawl Ну да - с тотальным vendor lo, Vikarti Anatra (ok), 17:20 , 06-Фев-26, (28)

Как время от времени скачивающий половину интернета человек, выскажусь на тему б, Аноним (7), 11:07 , 07-Ноя-25, (5)

Красить трафик стало вредно после экспансии хитрых NAT-ов и уползания ощутимого , Аноним (8), 12:14 , 07-Ноя-25, (8) +6

Красить трафик резать трафик Смысл в том, чтобы обслуживать мусорный трафик , Аноним (7), 13:22 , 07-Ноя-25, (9)

А, так вот почему у меня постоянно через прокси на некоторых IP - opennet заблок, Аноним (37), 23:17 , 19-Апр-26, (40)

Интересно было бы прикрутить к доставке информации о пробках в Organic Maps и им, Аноним (18), 11:40 , 26-Ноя-25, (18) –1

В чём тогда будет смысл organic maps если и там google за тобой следить будет , Аноним (25), 13:55 , 31-Янв-26, (25)

Откройте для себя рынок таких услуг как резидентные и мобильные прокси Удачи , Vikarti Anatra (ok), 17:22 , 06-Фев-26, (29)

Единственная действенная мера противодействия - это просто закрыть сайт для всех, Аноним (14), 10:31 , 13-Ноя-25, (14) –3

Дальше можно не читать, Аноним (37), 23:21 , 19-Апр-26, (41)

Годная статья Меня вот задолбал Anubis и то что оно выжирает батарею моего смар, Аноним (15), 22:10 , 15-Ноя-25, (15) –1

Вот из-за таких как-ты отчасти в мире упадок, а олигархи процветают , Аноним (25), 13:57 , 31-Янв-26, (26)
Авторы Anubis не принуждают сайты с опенсорсом использовать своё творение Так ч, Аноним (32), 02:44 , 25-Фев-26, (32)

Когда я писал свой поисковик, то сканируя адрес я всегда игнорировать robot чтоб, Аноним (19), 13:50 , 26-Ноя-25, (19) –3
Ога, а потому будет как у всяких яндексов и вк У яндекса 10 редиректов, прям ка, Аноним (24), 15:18 , 13-Янв-26, (24)

Нормальный это запрещающий вообще все Как и сливной JS , Аноним (37), 23:36 , 19-Апр-26, (42)

и соответственно эти скрыто-майнинговые проверки на ботов, как и каптчи, покуша, Аноним (37), 00:07 , 20-Апр-26, (44)

Блин, анон, вот ты вредитель, теперь Чирков эту гадость на опеннет запилил, и по, Аноним (34), 01:10 , 29-Мрт-26, (34)

Сделал выставление cookie не через JS, должно во всём работать, что поддерживает, Maxim Chirkov (ok), 08:28 , 29-Мрт-26, (35)

Куки в боте нет вообще никакой проблемы выставлять Это тривиально делается в ht, Аноним (36), 19:05 , 29-Мрт-26, (36)

У прокси бывают разные страны , Аноним (37), 00:01 , 20-Апр-26, (43)

Сообщения [Сортировка по времени | RSS]

1. "Отсеивание AI-ботов на web-сервере через Cookie" –1 +/–

Сообщение от повар (?), 03-Ноя-25, 16:17

Ну вот, теперь пейсaтeли таких ботов знают как это обойти.
Думаю лучше таким ботам намеренно "скармливать" всякую чушь и делать это всем владельцам сайтов.
Может тогда удастся принудить их к соблюдению правил.
Хотя это наверно пустая надежда, когда у людей нет ни совести, ни чести...

Ответить | Правка | Наверх | Cообщить модератору

4. "Отсеивание AI-ботов на web-сервере через Cookie" +1 +/–

Сообщение от Аноним (4), 05-Ноя-25, 12:51

>Думаю лучше таким ботам намеренно "скармливать" всякую чушь и делать это всем владельцам сайтов.
>Может тогда удастся принудить их к соблюдению правил.
Не только не поможет, но и сделает хуже. Сайт зарепортят в Cloudflare, поисковики, хостеру и регистратору домена - как скам помойку черных вебмастеров.

Ответить | Правка | Наверх | Cообщить модератору

23. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от gl3ko (?), 12-Янв-26, 11:29

У самого Cloudflare есть подобная возможность, которая отправляет ботов по бесконечному циклу сгенерированных ссылок

Ответить | Правка | Наверх | Cообщить модератору

33. "Отсеивание AI-ботов на web-сервере через Cookie" +1 +/–

Сообщение от Аноним (33), 28-Фев-26, 09:17

По итогу Cloudflare будет единственным, кто имеет автоматизированный доступ к контенту сайтов, т.к. его используют для обнаружения ботов. Можно будет продавать данные. И вообще, как можно отличить поискового бота от AI? Суть ведь их работы одна и та же - собирать данные.

Ответить | Правка | Наверх | Cообщить модератору

37. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (37), 19-Апр-26, 22:57

> Можно будет продавать данные.
Не можно а, не сомневайся - продаёт владельцам ИИ, естественно сами владельцы сайтов - "идут лесом".

>  как можно отличить поискового бота от AI? Суть ведь их работы одна и та же - собирать данные.
Прикол же ещё в том что, поисковые запросы уверен кроме официально ещё и не официально проверяют сайты, под видом реальных пользователей, а то и с аккаунтами. Иначе же легко туфту поисковику подсовывать в итоге - пользователи будут получать совсем не тот контент который обещает поисковик...

> статья: (JS) защиты от ботов
Скорей, вред пользователям за некоторыми типами прокси.. в т.ч.и Cookies авто-режущими, т.б.в наши времена...

Ответить | Правка | Наверх | Cообщить модератору

20. "Отсеивание AI-ботов на web-сервере через Cookie" +7 +/–

Сообщение от Tron is Whistling (?), 29-Ноя-25, 18:09

При обнаружении бота - слать его в tarpit, лимитировать число запросов десятью и отдавать со скоростью 100 байт в секунду.

Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

27. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Vikarti Anatra (ok), 06-Фев-26, 17:18

> При обнаружении бота - слать его в tarpit, лимитировать число запросов десятью
> и отдавать со скоростью 100 байт в секунду.
Придет с другого IP.
Ну и - есть еще один интересный ньюанс.
Бывают боты которые собирают материал для обучения ИИ а бывают - которые проверяют страницу прежде чем возвращать данные с нее в ответе пользователю (Perplexity например ловили на этом и они именно этот довод для защиты использовали), если боту второго типа прилетит такое...он просто не будет использовать результаты с этой страницы (и ссылки не будет показывать), найдет откуда _еще_ показать. С учетом что поиск потихоньку становится ИИ-шным...вы только убили себе SEO этим.

Ответить | Правка | Наверх | Cообщить модератору

30. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Tron is Whistling (?), 06-Фев-26, 21:00

Мне как-то фиолетово, есть та же наружная и телевизионная реклама, которая > SEO.

Ответить | Правка | Наверх | Cообщить модератору

38. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (37), 19-Апр-26, 23:06

> При обнаружении бота - слать его в tarpit, лимитировать число запросов десятью
> и отдавать со скоростью 100 байт в секунду.
А, он возмёт автоматически или обидется и заДДОСИТ тебя/твоегохостера с нескольких десятков-сотен миллионов IP :] Т.б.ныне же боты поумнели. Я уж не говорю - взломает сайт и пройдёт защиту .]
А, если это бот спеуслужб или опг [типа моссад и т.п.], в т.ч.мимикрируюих под что угодно,
то, это же дело уже принципа доступность к данным.
И лимитируй, не лимитируй...

Ответить | Правка | К родителю #20 | Наверх | Cообщить модератору

45. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Tron is Whistling (?), 23-Апр-26, 08:31

>> При обнаружении бота - слать его в tarpit, лимитировать число запросов десятью
>> и отдавать со скоростью 100 байт в секунду.
> заДДОСИТ тебя/твоегохостера с нескольких десятков-сотен миллионов IP :]
И получит примерно то же самое на несколько блоков /24. А возможно и blackhole по ASN. Ныне неколько миллионов IP в дудосах я уже давно всерьёз не видел, с трудом пару десятков тысяч наскребают.

Ответить | Правка | Наверх | Cообщить модератору

46. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Tron is Whistling (?), 23-Апр-26, 08:33

Причём ныне это в основном всякие хостерские подсети ныне, т.е. да, можно и по ASN влупить реально на сутки-двое, никто особо не пострадает.

Ответить | Правка | К родителю #38 | Наверх | Cообщить модератору

2. "Отсеивание AI-ботов на web-сервере через Cookie" +3 +/–

Сообщение от S_Paul (??), 04-Ноя-25, 18:14

Есть готовый модуль nginx testcookie. Не забыть добавить нормальных ботов в белый список.

Ответить | Правка | Наверх | Cообщить модератору

39. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (37), 19-Апр-26, 23:08

Что помешает ИИ или боту выдать себя за такого...

Ответить | Правка | Наверх | Cообщить модератору

3. "Отсеивание AI-ботов на web-сервере через Cookie" –9 +/–

Сообщение от Аноним (3), 04-Ноя-25, 20:45

>что многие боты запрашивают заранее предопределённый набор страниц и не передают Cookie, выставленные в ответ на прошлые запросы.
Передавать куки с помощью requests или httpx тривиально. Скрейпинг требует достаточной имитации браузера, включая полную поддержку экзотических схем сжатия и заголовков. Эта имитация всего лишь для душевного спокойствия тех дураков (часто не знаешь, из их числа админ, или нет, но иногда дураки себя маркируют, прямо в каждую страницу в футер вставляя угрозы судом тем, кто скачает данные), которые "ой, у меня в метриках аномалия, пойду всё анально огорожу" не понимающих, что их сайты всё равно отскрейпят, только оверхед будет больше. Статические ресурсы я обычно не качаю; качать их не приносит пользы ни мне, ни владельцам сайта.
В крайних случаях – Cloudflare или ситуации, когда прямо совсем нежелательно быть обнаруженным (например, при создании датасета для CAPTCHA не хотелось бы, чтобы вебмастер просто взял и сменил алгоритм) – можно использовать полноценный хром с расширением, которое выполняет весь скрейпинг и сбрасывает результаты на локальный веб-сервер, работающий на fastapi. Но плясать под клаудфларь дорого, унизительно и недостойно, я предпочитаю этого избегать. Идеальное решение по-прежнему: ссылки на дампы данных в футере сайта.
Естественно, запросы - будь то Python-код или расширение для браузера - идут с значительными переменными задержками, превышающими оные в robots, маскируясь под обычный трафик. Торопиться некуда: большинство данных, которые скрейпящие в состоянии с пользой обработать, обновляются нечасто, при этом старые данные остаются актуальными. Владельцы сайтов, пожалуйста, делайте страницу, выгружающую всё, что можно выгружать, в дамп, и желательно с дельтами, как, например, это делают флибустьеры. Это было бы взаимовыгодно и вам, и скрейперам. Вы можете пытаться ссать против ветра, но это совершенно бесполезно и не приносит пользы никому. Те кто скрейпят - им же для дела надо, это не котики, без которых можно обойтись.

Ответить | Правка | Наверх | Cообщить модератору

7. "Отсеивание AI-ботов на web-сервере через Cookie" +4 +/–

Сообщение от Аноним (7), 07-Ноя-25, 11:26

Владельцы сайтов не обязаны делать вам хорошо. Скорее это вы должны думать, как не делать им плохо. Потому что на самом деле не являетесь теми, для кого создается и наполняется сайт. Правильно было бы как-то платить за данные, если в дальнейшем из них извлекается какая-то прибыль.
Да, я в защите тоже играл, и интеллект ботоводов у меня тоже вызывает много вопросов. Иногда кажется, что на той стороне вообще псевдоразумный гриб. А на опеннете смотри-ка, посты пишет...

Ответить | Правка | Наверх | Cообщить модератору

13. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (13), 12-Ноя-25, 03:20

>Правильно было бы как-то платить за данные, если в дальнейшем из них извлекается какая-то прибыль.
А вы в суд обратитесь.

Ответить | Правка | Наверх | Cообщить модератору

22. "Отсеивание AI-ботов на web-сервере через Cookie" –1 +/–

Сообщение от Васяний Стаканыч (-), 20-Дек-25, 21:37

Вообще-то ПЛАТИТЬ ДОЛЖНЫ владельцы сайтов, чтобы на их сайты вообще кто-то заходил. А в эпоху самодостаточных мессенджеров вообще крайне сложно человека выманить пройти по внешней ссылке.

Ответить | Правка | К родителю #7 | Наверх | Cообщить модератору

28. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Vikarti Anatra (ok), 06-Фев-26, 17:20

> Владельцы сайтов не обязаны делать вам хорошо. Скорее это вы должны думать,
> как не делать им плохо. Потому что на самом деле не
> являетесь теми, для кого создается и наполняется сайт. Правильно было бы
> как-то платить за данные, если в дальнейшем из них извлекается какая-то
> прибыль.
Внезапно - Cloudflare уже тестируют Pay-per-crawl. Ну да - с тотальным vendor lock-in но все же

Ответить | Правка | К родителю #7 | Наверх | Cообщить модератору

5. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (7), 07-Ноя-25, 11:07

Как время от времени скачивающий половину интернета человек, выскажусь на тему бесполезности.
В скрипте дописывается одна строчка с установкой этой куки, да и дело с концом.
Реально мешает, когда сервер использует куки (в комбинации с IP) для того, чтобы "красить" клиентов и лимитирует использование для каждой, особенно если код ответа нормальный и контент отдаваемых страниц отличается не принципиально.
Но практически всегда это каким-то образом обходится. Так, я спарсил данные об организациях определенного типа всего мира (что-то часов за 6) с гугл карт, вообще не меняя куки, одним и тем же окном, даже не пряча хедлесс хромиум. Тупо за счет алгоритма обхода карты, который делал бессмысленной защитку, обрезающую количество ответов. Поля получал, проверяя их взаимное расположение и текст (мутагенез с ид и классами бесполезен). Весь скрипт, где-то строк 500. Никакого рокет сайенс.
Эникей админы, у которых до сих пор сайты на морально устаревшем языке и фреймворке, лучше бы думали, как его убрать за кэширующий сервер. Например, если куки нет, можно кидать контент в кэш на ключ урла и отдавать оттуда. Есть куки - запрашивать с апстрима по классике. Куки давать не всем подряд, а только тем, кому будет показан другой контент страниц. Сможете раздавать хоть гигабит трафика с одного ядра без особого напряга. Но вам же надо ботов наказывать, а не гарантировать уровень сервиса :)
К слову, ботов порезать проще простого. Достаточно красить трафик по автономкам и без ограничений пускать только интернет-провайдеров, предоставляющих услуги населению. Но это же думать надо и как-то страшненько.

Ответить | Правка | Наверх | Cообщить модератору

8. "Отсеивание AI-ботов на web-сервере через Cookie" +6 +/–

Сообщение от Аноним (8), 07-Ноя-25, 12:14

Красить трафик стало вредно после экспансии хитрых NAT-ов и уползания ощутимого числа пользователей в VPN.
Блокировать единичные скачивания не проблема, с этом и rate limit справится. Проблема в распределённых скрапперах, которые заваливают запросами с десятков тысяч или даже сотен тысяч разных IP (один раз за сутки насчитал около 300 тысяч), которые шлют запросы параллельно в 10-100 потоков. Когда на одном сервере несколько доменов - всё становится вообще печально и напоминает DDoS. Самое мерзкое, что с каждого IP приходит по несколько десятков запросов и потом IP меняется. С этим ещё можно бороться, когда трафик идёт из отдельных корпоративых подсетей. Но последнее время научились что-то вроде ботнета делать и привлекать обычных пользователей, которые за небольшую денежку ставят себе браузерный плагин для "помощи" обучения LLM.
По поводу оптимизации и отдачи статики, сайт остаётся жив, но из-за ботов кардинально вырастают затраты, когда используются площадки с оплатой за ресурсы или трафик.

Ответить | Правка | Наверх | Cообщить модератору

9. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (7), 07-Ноя-25, 13:22

Красить трафик != резать трафик. Смысл в том, чтобы обслуживать мусорный трафик в последнюю очередь с самым низким приоритетом.
Критерий наличия авторизации (и других признаков "естественности") очевидным образом снимает или ослабляет лимиты, даже если там один с ботами провайдер.
>из-за ботов кардинально вырастают затраты
Подрубать "серым" клиентам скорость соединений/коннекты. Чтобы поток парсера максимально долго торчал в памяти на той стороне, читая по чайной ложке. Вынуждать использовать хедлесс браузер (памяти никогда особо много не бывает). Зашумлять верстку тегами/комментами, убирать из нее тексты/ид/классы, за которые просто зацепиться. Все это конечно не про мейнстримный фронтенд с уо разработчиками.
>в распределённых скрапперах, которые заваливают запросами с десятков тысяч или даже сотен тысяч разных IP (один раз за сутки насчитал около 300 тысяч), которые шлют запросы параллельно в 10-100 потоков. Когда на одном сервере несколько доменов - всё становится вообще печально и напоминает DDoS. Самое мерзкое, что с каждого IP приходит по несколько десятков запросов и потом IP меняется
Люди, занимающиеся парсингом и DDOS - одни и те же люди. Конечно это все напоминает ддос)

Ответить | Правка | Наверх | Cообщить модератору

40. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (37), 19-Апр-26, 23:17

> Подрубать "серым" клиентам скорость соединений/коннекты. Чтобы поток парсера максимально долго торчал в памяти на той стороне, читая по чайной ложке.
А, так вот почему у меня постоянно через прокси на некоторых IP - opennet(заблокирванный в моей стране) грузит по "пару байт минуту", теперь буду знать... "защита" от обучения ИИ, сюрмор!

Ответить | Правка | Наверх | Cообщить модератору

18. "Отсеивание AI-ботов на web-сервере через Cookie" –1 +/–

Сообщение от Аноним (18), 26-Ноя-25, 11:40

> Но практически всегда это каким-то образом обходится. Так, я спарсил данные об организациях определенного типа всего мира (что-то часов за 6) с гугл карт, вообще не меняя куки, одним и тем же окном, даже не пряча хедлесс хромиум. Тупо за счет алгоритма обхода карты, который делал бессмысленной защитку, обрезающую количество ответов. Поля получал, проверяя их взаимное расположение и текст (мутагенез с ид и классами бесполезен). Весь скрипт, где-то строк 500. Никакого рокет сайенс.
Интересно было бы прикрутить к доставке информации о пробках в Organic Maps и им подобным с Google and Yandex.
Хотя, конечно же, тырыть это нечестно :(
Но можно возвращать информацию о трафике в движении. Прощай анонимность :(
Можно временно отключить получение информации о пробках и передачу информации о трафике на  клиентском устройстве.

Ответить | Правка | К родителю #5 | Наверх | Cообщить модератору

25. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (25), 31-Янв-26, 13:55

В чём тогда будет смысл organic maps если и там google за тобой следить будет?

Ответить | Правка | Наверх | Cообщить модератору

29. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Vikarti Anatra (ok), 06-Фев-26, 17:22

> К слову, ботов порезать проще простого. Достаточно красить трафик по автономкам и
> без ограничений пускать только интернет-провайдеров, предоставляющих услуги населению.
> Но это же думать надо и как-то страшненько.
Откройте для себя рынок таких услуг как резидентные (и мобильные) прокси. Удачи в фильтрации.

Ответить | Правка | К родителю #5 | Наверх | Cообщить модератору

14. "Отсеивание AI-ботов на web-сервере через Cookie" –3 +/–

Сообщение от Аноним (14), 13-Ноя-25, 10:31

Единственная действенная мера противодействия - это просто закрыть сайт для всех, кроме белого списка государств и подсетей, а включать в этот белый список по критерию того, что
1. юрисдикция присоединилась к конвенции ООН об обмене информацией.
2. в юрисдикции есть прецедент, согласно которому скрейпящих выимели именно за скрейпинг или вы контролируете суды этой юрисдикции
3. юрисдикция высылает тех, кого запросила сверхдержава, в которой вы живёте и являетесь гражданином, и имеете полезные связи внутри элиты, или если вы контролируете суды и силовиков той юрисдикции
4. вы можете себе позволить достать кого угодно оттуда в юридическом порядке, и окупить с лихвой процесс доставания с конфискованого у неудачника имущества.
Как альтернатива:
1. на территории де-юре суверенного иностранного failed state действует контролируемая вами (или вашим поваром) ЧВК, которой местные марионетки ботинки лижут, и посему местные законы этой ЧВК не указ.
Не хотите или не можете так? Ну значит ваш сайт так или иначе отскрейпят.

Ответить | Правка | Наверх | Cообщить модератору

41. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (37), 19-Апр-26, 23:21

> юрисдикция присоединилась к конвенции ООН об обмене информацией.
Дальше можно не читать

Ответить | Правка | Наверх | Cообщить модератору

15. "Отсеивание AI-ботов на web-сервере через Cookie" –1 +/–

Сообщение от Аноним (15), 15-Ноя-25, 22:10

Годная статья. Меня вот задолбал Anubis и то что оно выжирает батарею моего смартфона при посещении каждого второго сайта с опенсорсом, отчего я время от времени создательнице данного поделия высказываю свои "пожелания". Иногда задумываюсь над тем чтобы вернутся ко всему проприетарному, качать васяносборки и пользоваться теми же нейросетями, ибо там не будет транс-собако-системо-личностей что будет оценивать мои устройства на предмет ботоводства за счёт бесполезного вычисления хешей и показывать всякую мерзость во время этого.

Ответить | Правка | Наверх | Cообщить модератору

26. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (25), 31-Янв-26, 13:57

Вот из-за таких как-ты отчасти в мире упадок, а олигархи процветают. :)

Ответить | Правка | Наверх | Cообщить модератору

32. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (32), 25-Фев-26, 02:44

Авторы Anubis не принуждают сайты с опенсорсом использовать своё творение. Так что, надеюсь, ты уже заблокировал(-а)(-о) себе ану^W эти негодные сайты с опенсорсом и пользуешься только "всяким проприетарным" с правильными, цисгендерными толстыми зондами.

Ответить | Правка | К родителю #15 | Наверх | Cообщить модератору

19. "Отсеивание AI-ботов на web-сервере через Cookie" –3 +/–

Сообщение от Аноним (19), 26-Ноя-25, 13:50

Когда я писал свой поисковик, то сканируя адрес я всегда игнорировать robot чтоб получить чуть больше,чем мне позволенно. Уникальность была в моем поисковике

Ответить | Правка | Наверх | Cообщить модератору

24. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (24), 13-Янв-26, 15:18

Ога, а потому будет как у всяких яндексов и вк. У яндекса 10 редиректов, прям как на отборных скам-сайтах. А у вк вообще сайт не работает для нормального пользователя. Ибо у нормального пользователя нормальный браузер, запрещающий межсайтовый куки-трэкинг.

Ответить | Правка | Наверх | Cообщить модератору

42. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (37), 19-Апр-26, 23:36

Нормальный это запрещающий вообще все. Как и сливной JS.

Ответить | Правка | Наверх | Cообщить модератору

44. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (37), 20-Апр-26, 00:07

(и соответственно эти скрыто-майнинговые проверки на ботов, как и каптчи, покушаются на приватность, даже просто данных на винте)

Ответить | Правка | Наверх | Cообщить модератору

34. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (34), 29-Мрт-26, 01:10

Блин, анон, вот ты вредитель, теперь Чирков эту гадость на опеннет запилил, и постинг комментов без JS отвалился. Я, конечно, починил
cookieStore.get("btime").then(c => {
    if (!c) {
        let nowtime = new Date().getTime() // 1000;
        cookieStore.set({
            "name": "btime",
            "path": "/",
            "value": nowtime + '.' + nowtime,
            "saneSite": "strict",
            "maxAge": 2592000,
        });
    }
});
, но в lynx это дерьмо, разумеется, работать не будет.

Ответить | Правка | Наверх | Cообщить модератору

35. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Maxim Chirkov (ok), 29-Мрт-26, 08:28

Сделал выставление cookie не через JS, должно во всём работать, что поддерживает Cookie.
С ботами совсем всё становится плохо. Раньше они не выставляли referrer и по этому признаку их можно было отсеивать. С прошлой недели referrer стал приходить в основной массе и пришлось сделать отсеивание по cookie. Незнаю насколько этого хватит. Небольшой процент ботов, в основном от ByteDance, Cookie умеет ставить, но трафик от них относетильно небольшой.
Проблема в том, что на страницах с комментриями под каждым комментарием ссылка на отправку ответа. Индексируя эти страницы боты игнорируют атрибут nofollow и флудят запросами на скрипт отпрвки ответа. Сам скрипт нересурсоёмкий, но боты параллельно индексируют несколько станиц и получается, что отправляют одновременно сотни запросов. Усугубляет это то, что всё это происходит с разных IP - лезут разом с кучи адресов, в основном из китайских, вьетнамских и бразильских подсетей. Например, за вчера были обращения к скрипту публикации ответа с 257581 уникальных IP. За два дня - 388429, т.е. пул IP для работы ботов не постоянен.

Ответить | Правка | Наверх | Cообщить модератору

36. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (36), 29-Мрт-26, 19:05

Куки в боте нет вообще никакой проблемы выставлять. Это тривиально делается в httpx. Как и подделка хедеров под браузер. Но это всё - проигранная игра, я уже сказал - на гитхабе в последнее время все скрейперы почти поголовно на Microsoft Playwright написаны, видимо клод натренировали именно его юзать. На куку на домен общее максимум полмегабайта хранить можно, но учитывая что инстанс браузера минимум сотни мегов жрёт, и им - ОК, так вы ботов не заблокируете. Некоторым и нейросеть ведь крутить ресурсов хватает, а это уже десятки гигов для имеющей смысл нейросети, ведь без пропускания через нейросеть скрейпинг почти бесполезен, ни парсинг яндекс томита-парсером (GLR-парсер ... но для естественного языка), ни Stanford NER нужного качества вам не обеспечат, только БЯМ. Так что даже требуя полноценный браузер вы ботов не заблокируете. Даже если вы на просто просмотр каптчу поставите, так вы мощных ботов не заблокируете, для её распознавания нейронка на MobileViT всего 10 мегов весила, 10000 классов объектов, 5 лет назад. А моя нашлёпка поверх огрызка той нейронки (нейронка изначально не предназначалась для OCR, я от неё первые слои отодрал), порезанной посередине, на основе FastICA - 20.
И тут же вроде при первом постинге капчу требуется решить, картиночную? Как-то сомнительно, что бот, который может решать капчу, в общем виде, а не под конкретный сайт - что это просто паук-скрейпер, чья задача просто скопировать то, до чего дотянется. Подозреваю, что капчу решить (в общем виде) краулерам задача не стоит. Ну а значит, просто лимит на неправильные попытки, проблему бы решил. Но куки как префильтр чтобы снизить нагрузку на капчу - ну тоже неплохо. Но что мне ещё в этой куке не нравится (в скрипте кстати ошибка, я по питоньей привычке заменил / на //, а надо было Math.round делать) - это то, что она почти уникальна для юзера, время первого захода, если куки не тереть автоматически все, как у меня делается, то так и окажется юзер идентифицируем.
Предлагаю сделать гибридное решение. Такой-то процент неверных капч - и в бан улетает сразу вся подсеть, если не из русскоязычного региона. Если продолжается - то вся автономная система. Если превышен ещё один порог - то вообще вся страна. В сообщении про бан описать проблему, и какие авторы ботов должны изменения внести, чтобы проблем не создавать, как минимум перестать по формам тыркать, или какой-нибудь вордфильтр на имена inputов в формах и наличие textarea. Вы же не со скрейперами боретесь как с таковыми, а с их некорректной работой, создающей проблемы и вам (мусорные сообщения), и самим скрейперам (в их кеше оседает однотипный неинформативный мусор). Соответственно и искать решение нужно с этой позиции, иначе это просто война на истощение получится.

Ответить | Правка | Наверх | Cообщить модератору

43. "Отсеивание AI-ботов на web-сервере через Cookie" +/–

Сообщение от Аноним (37), 20-Апр-26, 00:01

У прокси бывают разные страны.

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2026 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

1. "Отсеивание AI-ботов на web-сервере через Cookie"	–1 +/–
Сообщение от повар (?), 03-Ноя-25, 16:17
Ну вот, теперь пейсaтeли таких ботов знают как это обойти. Думаю лучше таким ботам намеренно "скармливать" всякую чушь и делать это всем владельцам сайтов. Может тогда удастся принудить их к соблюдению правил. Хотя это наверно пустая надежда, когда у людей нет ни совести, ни чести...
Ответить \| Правка \| Наверх \| Cообщить модератору


	4. "Отсеивание AI-ботов на web-сервере через Cookie"	+1 +/–
	Сообщение от Аноним (4), 05-Ноя-25, 12:51
	>Думаю лучше таким ботам намеренно "скармливать" всякую чушь и делать это всем владельцам сайтов. >Может тогда удастся принудить их к соблюдению правил. Не только не поможет, но и сделает хуже. Сайт зарепортят в Cloudflare, поисковики, хостеру и регистратору домена - как скам помойку черных вебмастеров.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	23. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от gl3ko (?), 12-Янв-26, 11:29
	У самого Cloudflare есть подобная возможность, которая отправляет ботов по бесконечному циклу сгенерированных ссылок
	Ответить \| Правка \| Наверх \| Cообщить модератору


	33. "Отсеивание AI-ботов на web-сервере через Cookie"	+1 +/–
	Сообщение от Аноним (33), 28-Фев-26, 09:17
	По итогу Cloudflare будет единственным, кто имеет автоматизированный доступ к контенту сайтов, т.к. его используют для обнаружения ботов. Можно будет продавать данные. И вообще, как можно отличить поискового бота от AI? Суть ведь их работы одна и та же - собирать данные.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	37. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Аноним (37), 19-Апр-26, 22:57
	> Можно будет продавать данные. Не можно а, не сомневайся - продаёт владельцам ИИ, естественно сами владельцы сайтов - "идут лесом". > как можно отличить поискового бота от AI? Суть ведь их работы одна и та же - собирать данные. Прикол же ещё в том что, поисковые запросы уверен кроме официально ещё и не официально проверяют сайты, под видом реальных пользователей, а то и с аккаунтами. Иначе же легко туфту поисковику подсовывать в итоге - пользователи будут получать совсем не тот контент который обещает поисковик... > статья: (JS) защиты от ботов Скорей, вред пользователям за некоторыми типами прокси.. в т.ч.и Cookies авто-режущими, т.б.в наши времена...
	Ответить \| Правка \| Наверх \| Cообщить модератору


	20. "Отсеивание AI-ботов на web-сервере через Cookie"	+7 +/–
	Сообщение от Tron is Whistling (?), 29-Ноя-25, 18:09
	При обнаружении бота - слать его в tarpit, лимитировать число запросов десятью и отдавать со скоростью 100 байт в секунду.
	Ответить \| Правка \| К родителю #1 \| Наверх \| Cообщить модератору


	27. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Vikarti Anatra (ok), 06-Фев-26, 17:18
	> При обнаружении бота - слать его в tarpit, лимитировать число запросов десятью > и отдавать со скоростью 100 байт в секунду. Придет с другого IP. Ну и - есть еще один интересный ньюанс. Бывают боты которые собирают материал для обучения ИИ а бывают - которые проверяют страницу прежде чем возвращать данные с нее в ответе пользователю (Perplexity например ловили на этом и они именно этот довод для защиты использовали), если боту второго типа прилетит такое...он просто не будет использовать результаты с этой страницы (и ссылки не будет показывать), найдет откуда _еще_ показать. С учетом что поиск потихоньку становится ИИ-шным...вы только убили себе SEO этим.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	30. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Tron is Whistling (?), 06-Фев-26, 21:00
	Мне как-то фиолетово, есть та же наружная и телевизионная реклама, которая > SEO.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	38. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Аноним (37), 19-Апр-26, 23:06
	> При обнаружении бота - слать его в tarpit, лимитировать число запросов десятью > и отдавать со скоростью 100 байт в секунду. А, он возмёт автоматически или обидется и заДДОСИТ тебя/твоегохостера с нескольких десятков-сотен миллионов IP :] Т.б.ныне же боты поумнели. Я уж не говорю - взломает сайт и пройдёт защиту .] А, если это бот спеуслужб или опг [типа моссад и т.п.], в т.ч.мимикрируюих под что угодно, то, это же дело уже принципа доступность к данным. И лимитируй, не лимитируй...
	Ответить \| Правка \| К родителю #20 \| Наверх \| Cообщить модератору


	45. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Tron is Whistling (?), 23-Апр-26, 08:31
	>> При обнаружении бота - слать его в tarpit, лимитировать число запросов десятью >> и отдавать со скоростью 100 байт в секунду. > заДДОСИТ тебя/твоегохостера с нескольких десятков-сотен миллионов IP :] И получит примерно то же самое на несколько блоков /24. А возможно и blackhole по ASN. Ныне неколько миллионов IP в дудосах я уже давно всерьёз не видел, с трудом пару десятков тысяч наскребают.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	46. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Tron is Whistling (?), 23-Апр-26, 08:33
	Причём ныне это в основном всякие хостерские подсети ныне, т.е. да, можно и по ASN влупить реально на сутки-двое, никто особо не пострадает.
	Ответить \| Правка \| К родителю #38 \| Наверх \| Cообщить модератору

2. "Отсеивание AI-ботов на web-сервере через Cookie"	+3 +/–
Сообщение от S_Paul (??), 04-Ноя-25, 18:14
Есть готовый модуль nginx testcookie. Не забыть добавить нормальных ботов в белый список.
Ответить \| Правка \| Наверх \| Cообщить модератору


	39. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Аноним (37), 19-Апр-26, 23:08
	Что помешает ИИ или боту выдать себя за такого...
	Ответить \| Правка \| Наверх \| Cообщить модератору

3. "Отсеивание AI-ботов на web-сервере через Cookie"	–9 +/–
Сообщение от Аноним (3), 04-Ноя-25, 20:45
>что многие боты запрашивают заранее предопределённый набор страниц и не передают Cookie, выставленные в ответ на прошлые запросы. Передавать куки с помощью requests или httpx тривиально. Скрейпинг требует достаточной имитации браузера, включая полную поддержку экзотических схем сжатия и заголовков. Эта имитация всего лишь для душевного спокойствия тех дураков (часто не знаешь, из их числа админ, или нет, но иногда дураки себя маркируют, прямо в каждую страницу в футер вставляя угрозы судом тем, кто скачает данные), которые "ой, у меня в метриках аномалия, пойду всё анально огорожу" не понимающих, что их сайты всё равно отскрейпят, только оверхед будет больше. Статические ресурсы я обычно не качаю; качать их не приносит пользы ни мне, ни владельцам сайта. В крайних случаях – Cloudflare или ситуации, когда прямо совсем нежелательно быть обнаруженным (например, при создании датасета для CAPTCHA не хотелось бы, чтобы вебмастер просто взял и сменил алгоритм) – можно использовать полноценный хром с расширением, которое выполняет весь скрейпинг и сбрасывает результаты на локальный веб-сервер, работающий на fastapi. Но плясать под клаудфларь дорого, унизительно и недостойно, я предпочитаю этого избегать. Идеальное решение по-прежнему: ссылки на дампы данных в футере сайта. Естественно, запросы - будь то Python-код или расширение для браузера - идут с значительными переменными задержками, превышающими оные в robots, маскируясь под обычный трафик. Торопиться некуда: большинство данных, которые скрейпящие в состоянии с пользой обработать, обновляются нечасто, при этом старые данные остаются актуальными. Владельцы сайтов, пожалуйста, делайте страницу, выгружающую всё, что можно выгружать, в дамп, и желательно с дельтами, как, например, это делают флибустьеры. Это было бы взаимовыгодно и вам, и скрейперам. Вы можете пытаться ссать против ветра, но это совершенно бесполезно и не приносит пользы никому. Те кто скрейпят - им же для дела надо, это не котики, без которых можно обойтись.
Ответить \| Правка \| Наверх \| Cообщить модератору


	7. "Отсеивание AI-ботов на web-сервере через Cookie"	+4 +/–
	Сообщение от Аноним (7), 07-Ноя-25, 11:26
	Владельцы сайтов не обязаны делать вам хорошо. Скорее это вы должны думать, как не делать им плохо. Потому что на самом деле не являетесь теми, для кого создается и наполняется сайт. Правильно было бы как-то платить за данные, если в дальнейшем из них извлекается какая-то прибыль. Да, я в защите тоже играл, и интеллект ботоводов у меня тоже вызывает много вопросов. Иногда кажется, что на той стороне вообще псевдоразумный гриб. А на опеннете смотри-ка, посты пишет...
	Ответить \| Правка \| Наверх \| Cообщить модератору


	13. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Аноним (13), 12-Ноя-25, 03:20
	>Правильно было бы как-то платить за данные, если в дальнейшем из них извлекается какая-то прибыль. А вы в суд обратитесь.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	22. "Отсеивание AI-ботов на web-сервере через Cookie"	–1 +/–
	Сообщение от Васяний Стаканыч (-), 20-Дек-25, 21:37
	Вообще-то ПЛАТИТЬ ДОЛЖНЫ владельцы сайтов, чтобы на их сайты вообще кто-то заходил. А в эпоху самодостаточных мессенджеров вообще крайне сложно человека выманить пройти по внешней ссылке.
	Ответить \| Правка \| К родителю #7 \| Наверх \| Cообщить модератору


	28. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Vikarti Anatra (ok), 06-Фев-26, 17:20
	> Владельцы сайтов не обязаны делать вам хорошо. Скорее это вы должны думать, > как не делать им плохо. Потому что на самом деле не > являетесь теми, для кого создается и наполняется сайт. Правильно было бы > как-то платить за данные, если в дальнейшем из них извлекается какая-то > прибыль. Внезапно - Cloudflare уже тестируют Pay-per-crawl. Ну да - с тотальным vendor lock-in но все же
	Ответить \| Правка \| К родителю #7 \| Наверх \| Cообщить модератору

5. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
Сообщение от Аноним (7), 07-Ноя-25, 11:07
Как время от времени скачивающий половину интернета человек, выскажусь на тему бесполезности. В скрипте дописывается одна строчка с установкой этой куки, да и дело с концом. Реально мешает, когда сервер использует куки (в комбинации с IP) для того, чтобы "красить" клиентов и лимитирует использование для каждой, особенно если код ответа нормальный и контент отдаваемых страниц отличается не принципиально. Но практически всегда это каким-то образом обходится. Так, я спарсил данные об организациях определенного типа всего мира (что-то часов за 6) с гугл карт, вообще не меняя куки, одним и тем же окном, даже не пряча хедлесс хромиум. Тупо за счет алгоритма обхода карты, который делал бессмысленной защитку, обрезающую количество ответов. Поля получал, проверяя их взаимное расположение и текст (мутагенез с ид и классами бесполезен). Весь скрипт, где-то строк 500. Никакого рокет сайенс. Эникей админы, у которых до сих пор сайты на морально устаревшем языке и фреймворке, лучше бы думали, как его убрать за кэширующий сервер. Например, если куки нет, можно кидать контент в кэш на ключ урла и отдавать оттуда. Есть куки - запрашивать с апстрима по классике. Куки давать не всем подряд, а только тем, кому будет показан другой контент страниц. Сможете раздавать хоть гигабит трафика с одного ядра без особого напряга. Но вам же надо ботов наказывать, а не гарантировать уровень сервиса :) К слову, ботов порезать проще простого. Достаточно красить трафик по автономкам и без ограничений пускать только интернет-провайдеров, предоставляющих услуги населению. Но это же думать надо и как-то страшненько.
Ответить \| Правка \| Наверх \| Cообщить модератору


	8. "Отсеивание AI-ботов на web-сервере через Cookie"	+6 +/–
	Сообщение от Аноним (8), 07-Ноя-25, 12:14
	Красить трафик стало вредно после экспансии хитрых NAT-ов и уползания ощутимого числа пользователей в VPN. Блокировать единичные скачивания не проблема, с этом и rate limit справится. Проблема в распределённых скрапперах, которые заваливают запросами с десятков тысяч или даже сотен тысяч разных IP (один раз за сутки насчитал около 300 тысяч), которые шлют запросы параллельно в 10-100 потоков. Когда на одном сервере несколько доменов - всё становится вообще печально и напоминает DDoS. Самое мерзкое, что с каждого IP приходит по несколько десятков запросов и потом IP меняется. С этим ещё можно бороться, когда трафик идёт из отдельных корпоративых подсетей. Но последнее время научились что-то вроде ботнета делать и привлекать обычных пользователей, которые за небольшую денежку ставят себе браузерный плагин для "помощи" обучения LLM. По поводу оптимизации и отдачи статики, сайт остаётся жив, но из-за ботов кардинально вырастают затраты, когда используются площадки с оплатой за ресурсы или трафик.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	9. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Аноним (7), 07-Ноя-25, 13:22
	Красить трафик != резать трафик. Смысл в том, чтобы обслуживать мусорный трафик в последнюю очередь с самым низким приоритетом. Критерий наличия авторизации (и других признаков "естественности") очевидным образом снимает или ослабляет лимиты, даже если там один с ботами провайдер. >из-за ботов кардинально вырастают затраты Подрубать "серым" клиентам скорость соединений/коннекты. Чтобы поток парсера максимально долго торчал в памяти на той стороне, читая по чайной ложке. Вынуждать использовать хедлесс браузер (памяти никогда особо много не бывает). Зашумлять верстку тегами/комментами, убирать из нее тексты/ид/классы, за которые просто зацепиться. Все это конечно не про мейнстримный фронтенд с уо разработчиками. >в распределённых скрапперах, которые заваливают запросами с десятков тысяч или даже сотен тысяч разных IP (один раз за сутки насчитал около 300 тысяч), которые шлют запросы параллельно в 10-100 потоков. Когда на одном сервере несколько доменов - всё становится вообще печально и напоминает DDoS. Самое мерзкое, что с каждого IP приходит по несколько десятков запросов и потом IP меняется Люди, занимающиеся парсингом и DDOS - одни и те же люди. Конечно это все напоминает ддос)
	Ответить \| Правка \| Наверх \| Cообщить модератору


	40. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Аноним (37), 19-Апр-26, 23:17
	> Подрубать "серым" клиентам скорость соединений/коннекты. Чтобы поток парсера максимально долго торчал в памяти на той стороне, читая по чайной ложке. А, так вот почему у меня постоянно через прокси на некоторых IP - opennet(заблокирванный в моей стране) грузит по "пару байт минуту", теперь буду знать... "защита" от обучения ИИ, сюрмор!
	Ответить \| Правка \| Наверх \| Cообщить модератору


	18. "Отсеивание AI-ботов на web-сервере через Cookie"	–1 +/–
	Сообщение от Аноним (18), 26-Ноя-25, 11:40
	> Но практически всегда это каким-то образом обходится. Так, я спарсил данные об организациях определенного типа всего мира (что-то часов за 6) с гугл карт, вообще не меняя куки, одним и тем же окном, даже не пряча хедлесс хромиум. Тупо за счет алгоритма обхода карты, который делал бессмысленной защитку, обрезающую количество ответов. Поля получал, проверяя их взаимное расположение и текст (мутагенез с ид и классами бесполезен). Весь скрипт, где-то строк 500. Никакого рокет сайенс. Интересно было бы прикрутить к доставке информации о пробках в Organic Maps и им подобным с Google and Yandex. Хотя, конечно же, тырыть это нечестно :( Но можно возвращать информацию о трафике в движении. Прощай анонимность :( Можно временно отключить получение информации о пробках и передачу информации о трафике на клиентском устройстве.
	Ответить \| Правка \| К родителю #5 \| Наверх \| Cообщить модератору


	25. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Аноним (25), 31-Янв-26, 13:55
	В чём тогда будет смысл organic maps если и там google за тобой следить будет?
	Ответить \| Правка \| Наверх \| Cообщить модератору


	29. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Vikarti Anatra (ok), 06-Фев-26, 17:22
	> К слову, ботов порезать проще простого. Достаточно красить трафик по автономкам и > без ограничений пускать только интернет-провайдеров, предоставляющих услуги населению. > Но это же думать надо и как-то страшненько. Откройте для себя рынок таких услуг как резидентные (и мобильные) прокси. Удачи в фильтрации.
	Ответить \| Правка \| К родителю #5 \| Наверх \| Cообщить модератору

14. "Отсеивание AI-ботов на web-сервере через Cookie"	–3 +/–
Сообщение от Аноним (14), 13-Ноя-25, 10:31
Единственная действенная мера противодействия - это просто закрыть сайт для всех, кроме белого списка государств и подсетей, а включать в этот белый список по критерию того, что 1. юрисдикция присоединилась к конвенции ООН об обмене информацией. 2. в юрисдикции есть прецедент, согласно которому скрейпящих выимели именно за скрейпинг или вы контролируете суды этой юрисдикции 3. юрисдикция высылает тех, кого запросила сверхдержава, в которой вы живёте и являетесь гражданином, и имеете полезные связи внутри элиты, или если вы контролируете суды и силовиков той юрисдикции 4. вы можете себе позволить достать кого угодно оттуда в юридическом порядке, и окупить с лихвой процесс доставания с конфискованого у неудачника имущества. Как альтернатива: 1. на территории де-юре суверенного иностранного failed state действует контролируемая вами (или вашим поваром) ЧВК, которой местные марионетки ботинки лижут, и посему местные законы этой ЧВК не указ. Не хотите или не можете так? Ну значит ваш сайт так или иначе отскрейпят.
Ответить \| Правка \| Наверх \| Cообщить модератору


	41. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Аноним (37), 19-Апр-26, 23:21
	> юрисдикция присоединилась к конвенции ООН об обмене информацией. Дальше можно не читать
	Ответить \| Правка \| Наверх \| Cообщить модератору

15. "Отсеивание AI-ботов на web-сервере через Cookie"	–1 +/–
Сообщение от Аноним (15), 15-Ноя-25, 22:10
Годная статья. Меня вот задолбал Anubis и то что оно выжирает батарею моего смартфона при посещении каждого второго сайта с опенсорсом, отчего я время от времени создательнице данного поделия высказываю свои "пожелания". Иногда задумываюсь над тем чтобы вернутся ко всему проприетарному, качать васяносборки и пользоваться теми же нейросетями, ибо там не будет транс-собако-системо-личностей что будет оценивать мои устройства на предмет ботоводства за счёт бесполезного вычисления хешей и показывать всякую мерзость во время этого.
Ответить \| Правка \| Наверх \| Cообщить модератору


	26. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Аноним (25), 31-Янв-26, 13:57
	Вот из-за таких как-ты отчасти в мире упадок, а олигархи процветают. :)
	Ответить \| Правка \| Наверх \| Cообщить модератору


	32. "Отсеивание AI-ботов на web-сервере через Cookie"	+/–
	Сообщение от Аноним (32), 25-Фев-26, 02:44
	Авторы Anubis не принуждают сайты с опенсорсом использовать своё творение. Так что, надеюсь, ты уже заблокировал(-а)(-о) себе ану^W эти негодные сайты с опенсорсом и пользуешься только "всяким проприетарным" с правильными, цисгендерными толстыми зондами.
	Ответить \| Правка \| К родителю #15 \| Наверх \| Cообщить модератору