Вариант для распечатки |
Пред. тема | След. тема | ||
| Форум Разговоры, обсуждение новостей | |||
|---|---|---|---|
| Изначальное сообщение | [ Отслеживать ] | ||
| "Раздел полезных советов: Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от auto_tips (?), 03-Ноя-25, 16:17 | ||
Для отсеивания ботов, агрессивно [[https://www.opennet.me/opennews/art.shtml?num=62925 индексирующих]] контент, игнорируя правила из robots.txt, можно воспользоваться тем, что многие боты запрашивают заранее предопределённый набор страниц и не передают Cookie, выставленные в ответ на прошлые запросы. | ||
| Ответить | Правка | Cообщить модератору | ||
| Оглавление |
| Сообщения | [Сортировка по времени | RSS] |
| 1. "Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от повар (?), 03-Ноя-25, 16:17 | ||
Ну вот, теперь пейсaтeли таких ботов знают как это обойти. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 4. "Отсеивание AI-ботов на web-сервере через Cookie" | +1 +/– | |
| Сообщение от Аноним (4), 05-Ноя-25, 12:51 | ||
>Думаю лучше таким ботам намеренно "скармливать" всякую чушь и делать это всем владельцам сайтов. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 23. "Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от gl3ko (?), 12-Янв-26, 11:29 | ||
У самого Cloudflare есть подобная возможность, которая отправляет ботов по бесконечному циклу сгенерированных ссылок | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 33. "Отсеивание AI-ботов на web-сервере через Cookie" | +1 +/– | |
| Сообщение от Аноним (33), 28-Фев-26, 09:17 | ||
По итогу Cloudflare будет единственным, кто имеет автоматизированный доступ к контенту сайтов, т.к. его используют для обнаружения ботов. Можно будет продавать данные. И вообще, как можно отличить поискового бота от AI? Суть ведь их работы одна и та же - собирать данные. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 20. "Отсеивание AI-ботов на web-сервере через Cookie" | +7 +/– | |
| Сообщение от Tron is Whistling (?), 29-Ноя-25, 18:09 | ||
При обнаружении бота - слать его в tarpit, лимитировать число запросов десятью и отдавать со скоростью 100 байт в секунду. | ||
| Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору | ||
| 27. "Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от Vikarti Anatra (ok), 06-Фев-26, 17:18 | ||
> При обнаружении бота - слать его в tarpit, лимитировать число запросов десятью | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 30. "Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от Tron is Whistling (?), 06-Фев-26, 21:00 | ||
Мне как-то фиолетово, есть та же наружная и телевизионная реклама, которая > SEO. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 2. "Отсеивание AI-ботов на web-сервере через Cookie" | +3 +/– | |
Сообщение от S_Paul (??), 04-Ноя-25, 18:14 | ||
Есть готовый модуль nginx testcookie. Не забыть добавить нормальных ботов в белый список. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 3. "Отсеивание AI-ботов на web-сервере через Cookie" | –9 +/– | |
| Сообщение от Аноним (3), 04-Ноя-25, 20:45 | ||
>что многие боты запрашивают заранее предопределённый набор страниц и не передают Cookie, выставленные в ответ на прошлые запросы. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 7. "Отсеивание AI-ботов на web-сервере через Cookie" | +4 +/– | |
| Сообщение от Аноним (7), 07-Ноя-25, 11:26 | ||
Владельцы сайтов не обязаны делать вам хорошо. Скорее это вы должны думать, как не делать им плохо. Потому что на самом деле не являетесь теми, для кого создается и наполняется сайт. Правильно было бы как-то платить за данные, если в дальнейшем из них извлекается какая-то прибыль. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 13. "Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от Аноним (13), 12-Ноя-25, 03:20 | ||
>Правильно было бы как-то платить за данные, если в дальнейшем из них извлекается какая-то прибыль. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 22. "Отсеивание AI-ботов на web-сервере через Cookie" | –1 +/– | |
| Сообщение от Васяний Стаканыч (-), 20-Дек-25, 21:37 | ||
Вообще-то ПЛАТИТЬ ДОЛЖНЫ владельцы сайтов, чтобы на их сайты вообще кто-то заходил. А в эпоху самодостаточных мессенджеров вообще крайне сложно человека выманить пройти по внешней ссылке. | ||
| Ответить | Правка | К родителю #7 | Наверх | Cообщить модератору | ||
| 28. "Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от Vikarti Anatra (ok), 06-Фев-26, 17:20 | ||
> Владельцы сайтов не обязаны делать вам хорошо. Скорее это вы должны думать, | ||
| Ответить | Правка | К родителю #7 | Наверх | Cообщить модератору | ||
| 5. "Отсеивание AI-ботов на web-сервере через Cookie" | –1 +/– | |
| Сообщение от Аноним (7), 07-Ноя-25, 11:07 | ||
Как время от времени скачивающий половину интернета человек, выскажусь на тему бесполезности. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 8. "Отсеивание AI-ботов на web-сервере через Cookie" | +5 +/– | |
| Сообщение от Аноним (8), 07-Ноя-25, 12:14 | ||
Красить трафик стало вредно после экспансии хитрых NAT-ов и уползания ощутимого числа пользователей в VPN. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 9. "Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от Аноним (7), 07-Ноя-25, 13:22 | ||
Красить трафик != резать трафик. Смысл в том, чтобы обслуживать мусорный трафик в последнюю очередь с самым низким приоритетом. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 18. "Отсеивание AI-ботов на web-сервере через Cookie" | –1 +/– | |
| Сообщение от Аноним (18), 26-Ноя-25, 11:40 | ||
> Но практически всегда это каким-то образом обходится. Так, я спарсил данные об организациях определенного типа всего мира (что-то часов за 6) с гугл карт, вообще не меняя куки, одним и тем же окном, даже не пряча хедлесс хромиум. Тупо за счет алгоритма обхода карты, который делал бессмысленной защитку, обрезающую количество ответов. Поля получал, проверяя их взаимное расположение и текст (мутагенез с ид и классами бесполезен). Весь скрипт, где-то строк 500. Никакого рокет сайенс. | ||
| Ответить | Правка | К родителю #5 | Наверх | Cообщить модератору | ||
| 25. "Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от Аноним (25), 31-Янв-26, 13:55 | ||
В чём тогда будет смысл organic maps если и там google за тобой следить будет? | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 29. "Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от Vikarti Anatra (ok), 06-Фев-26, 17:22 | ||
| ||
| Ответить | Правка | К родителю #5 | Наверх | Cообщить модератору | ||
| 14. "Отсеивание AI-ботов на web-сервере через Cookie" | –2 +/– | |
| Сообщение от Аноним (14), 13-Ноя-25, 10:31 | ||
Единственная действенная мера противодействия - это просто закрыть сайт для всех, кроме белого списка государств и подсетей, а включать в этот белый список по критерию того, что | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 15. "Отсеивание AI-ботов на web-сервере через Cookie" | –1 +/– | |
| Сообщение от Аноним (15), 15-Ноя-25, 22:10 | ||
Годная статья. Меня вот задолбал Anubis и то что оно выжирает батарею моего смартфона при посещении каждого второго сайта с опенсорсом, отчего я время от времени создательнице данного поделия высказываю свои "пожелания". Иногда задумываюсь над тем чтобы вернутся ко всему проприетарному, качать васяносборки и пользоваться теми же нейросетями, ибо там не будет транс-собако-системо-личностей что будет оценивать мои устройства на предмет ботоводства за счёт бесполезного вычисления хешей и показывать всякую мерзость во время этого. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 26. "Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от Аноним (25), 31-Янв-26, 13:57 | ||
Вот из-за таких как-ты отчасти в мире упадок, а олигархи процветают. :) | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 32. "Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от Аноним (32), 25-Фев-26, 02:44 | ||
Авторы Anubis не принуждают сайты с опенсорсом использовать своё творение. Так что, надеюсь, ты уже заблокировал(-а)(-о) себе ану^W эти негодные сайты с опенсорсом и пользуешься только "всяким проприетарным" с правильными, цисгендерными толстыми зондами. | ||
| Ответить | Правка | К родителю #15 | Наверх | Cообщить модератору | ||
| 19. "Отсеивание AI-ботов на web-сервере через Cookie" | –3 +/– | |
| Сообщение от Аноним (19), 26-Ноя-25, 13:50 | ||
Когда я писал свой поисковик, то сканируя адрес я всегда игнорировать robot чтоб получить чуть больше,чем мне позволенно. Уникальность была в моем поисковике | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 24. "Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от Аноним (24), 13-Янв-26, 15:18 | ||
Ога, а потому будет как у всяких яндексов и вк. У яндекса 10 редиректов, прям как на отборных скам-сайтах. А у вк вообще сайт не работает для нормального пользователя. Ибо у нормального пользователя нормальный браузер, запрещающий межсайтовый куки-трэкинг. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 34. "Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от Аноним (34), 29-Мрт-26, 01:10 | ||
Блин, анон, вот ты вредитель, теперь Чирков эту гадость на опеннет запилил, и постинг комментов без JS отвалился. Я, конечно, починил | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 35. "Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от Maxim Chirkov (ok), 29-Мрт-26, 08:28 | ||
Сделал выставление cookie не через JS, должно во всём работать, что поддерживает Cookie. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
| 36. "Отсеивание AI-ботов на web-сервере через Cookie" | +/– | |
| Сообщение от Аноним (36), 29-Мрт-26, 19:05 | ||
Куки в боте нет вообще никакой проблемы выставлять. Это тривиально делается в httpx. Как и подделка хедеров под браузер. Но это всё - проигранная игра, я уже сказал - на гитхабе в последнее время все скрейперы почти поголовно на Microsoft Playwright написаны, видимо клод натренировали именно его юзать. На куку на домен общее максимум полмегабайта хранить можно, но учитывая что инстанс браузера минимум сотни мегов жрёт, и им - ОК, так вы ботов не заблокируете. Некоторым и нейросеть ведь крутить ресурсов хватает, а это уже десятки гигов для имеющей смысл нейросети, ведь без пропускания через нейросеть скрейпинг почти бесполезен, ни парсинг яндекс томита-парсером (GLR-парсер ... но для естественного языка), ни Stanford NER нужного качества вам не обеспечат, только БЯМ. Так что даже требуя полноценный браузер вы ботов не заблокируете. Даже если вы на просто просмотр каптчу поставите, так вы мощных ботов не заблокируете, для её распознавания нейронка на MobileViT всего 10 мегов весила, 10000 классов объектов, 5 лет назад. А моя нашлёпка поверх огрызка той нейронки (нейронка изначально не предназначалась для OCR, я от неё первые слои отодрал), порезанной посередине, на основе FastICA - 20. | ||
| Ответить | Правка | Наверх | Cообщить модератору | ||
|
Архив | Удалить |
Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема |
|
Закладки на сайте Проследить за страницей |
Created 1996-2026 by Maxim Chirkov Добавить, Поддержать, Вебмастеру |