The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Использование zip-бомбы для борьбы с вредоносными web-ботами

30.04.2025 08:05

Последнее время значительно возросла активность web-ботов, индексирующих сайты. Помимо корректно работающих ботов распространение получили "неистовые" боты, игнорирующие правила индексирования robots.txt, лезущие с десятков тысяч разных IP, притворяющиеся легитимными пользователями и не придерживающиеся разумной политики интенсивности отправки запросов. Данные боты создают огромную паразитную нагрузку на серверы, нарушают нормальную работоспособность систем и отнимают время администраторов. Активность подобных ботов воспринимается многими как вредоносные действия.

В качестве меры для замедления работы подобных ботов, а также ботов, сканирующих неисправленные уязвимости в типовых web-приложениях, один из администраторов предложил метод "zip-бомбы". Суть метода в том, что web-боту в ответ на запрос страницы передаётся содержимое, эффективно сжатое методом "deflate", размер которого при распаковке многократно превышает размер переданных по сети данных. Например, при использовании метода "deflate" содержимое из /dev/zero, упакованное в 10 МБ, при распаковке потребует 1 ГБ дискового пространства. При использовании метода сжатия "brotli" удалось добиться уровня, при котором передача 81 МБ приводит к распаковке 100 ТБ данных.

Активировать подобную защиту можно через создание ловушек, которые доступны по невидимым ссылкам, отмечены флагом 'rel="nofollow"', исключены из индексации через robots.txt и срабатывают при достаточно высоком уровне рекурсии для ботов, пытающихся притворяться обычными пользователями. На практике предложенный метод применять не рекомендуется, так как сайт может быть занесён Google в чёрный список и начнёт помечаться вредоносным в браузере Chrome с включённым режимом "Safe Browsing".

  1. Главная ссылка к новости (https://news.ycombinator.com/i...)
  2. OpenNews: Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и SourceHut из-за ИИ-индексаторов
  3. OpenNews: Обновление свободного антивирусного пакета ClamAV 0.101.4 с устранением уязвимостей
  4. OpenNews: Результаты второго аудита безопасности разработок проекта Tor
  5. OpenNews: Серия уязвимостей в реализациях HTTP/2
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/63163-zipbomb
Ключевые слова: zipbomb, bot
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (184) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 08:17, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +47 +/
    > так как при случайной индексации подобной ловушки ботом Google
    > случайной
    > Google

    :D)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))

     
     
  • 2.3, Аноним (3), 08:28, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +6 +/
    Имелось ввиду, что если накосячишь с настройкой ловушки и она по ошибке сработает для Google Bot, то мало не покажется.
     
     
  • 3.6, Tron is Whistling (?), 08:29, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +12 +/
    У бота гугла до сих пор нет лимитов на размер загружаемого содержимого?
    П - профессионализм.
     
     
  • 4.7, Вася (??), 08:35, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +5 +/
    так это будет в лимита загрузки, но вне лимита распаковки
     
     
  • 5.27, Tron is Whistling (?), 09:07, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Распаковка по-хорошему производится по мере загрузки.
    Никогда не удивляло, что gzip/bzip2/xz/zstd файл для распаковки целиком в память не загружают?
     
  • 4.118, Аноним (118), 17:33, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    В том-то и дело, что есть, и не только на размер. И если любая защита срабатывает — значит сайт и у обычного пользователя тоже нормально работать не будет, значит и рекомендовать пользователям посещать этот сайт не нужно. Все такие подозрительные урлы в поисковом индексе в итоге помечаются как вредоносные, а по достижению определённого лимита вредоносным помечается весь домен. На этом в принципе можно и попрощаться, убрать домен из списка вредоносных может занять несколько месяцев. Если это мелкий магазин, как было у моего клиента, то может оказаться дешевле провести ребрендинг и сменить название, чем держать склад без движения.
     
     
  • 5.151, Tron is Whistling (?), 00:54, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Если такая защита срабатывает на х***ю, которую обычный пользователь не закачает никогда - эта защита - полная х***я и чисто рекламный ход.
     
     
  • 6.177, Аноним (118), 21:17, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Ты наверное не очень хорошо представляешь с каким скамом приходится иметь дело поисковым системам. Есть множество частных случаев, но общий подход такой: если на странице есть хоть что-то нестандартное, странное (для произвольных определений странности — это мегабайты кода, буквально), и даже отдалённо напоминающее попытки манипуляций поисковой выдачей, то сайт начинает «тонуть» по рейтингу, при чём чем больше срабатываний, тем быстрее. Поэтому совет от гуру пикапа: брать кунг с лючком, и не совать на свои страницы ничего эдакого, особенно «х***ю, которую обычный пользователь не закачает никогда», если сайт нужен для ведения бизнеса.
     
  • 5.152, Tron is Whistling (?), 00:55, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • –2 +/
    > весь домен. На этом в принципе можно и попрощаться, убрать домен
    > из списка вредоносных может занять несколько месяцев. Если это мелкий магазин,
    > как было у моего клиента, то может оказаться дешевле провести ребрендинг
    > и сменить название, чем держать склад без движения.

    Проще использовать другие методы рекламы :)

     
     
  • 6.167, Аноним (118), 15:31, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Если вашего бизнеса нет в выдаче самого популярного поисковика в мире, значит вашего бизнеса нет и в интернете.
     
     
  • 7.174, Tron is Whistling (?), 19:22, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Хреновый у вас бизнес.
     
     
  • 8.179, Аноним (118), 21:21, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Я не жалуюсь, на сытую жизнь в недешёвой стране хватает и ещё остаётся Но раз т... текст свёрнут, показать
     
     
  • 9.182, Tron is Whistling (?), 22:20, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Да, займись, всё какое-то занятие ... текст свёрнут, показать
     
     
  • 10.183, Аноним (118), 23:19, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Посмотрел сколько на деле платят сеньорам в FAANG куда меня даже джуном вряд ли... текст свёрнут, показать
     
  • 2.29, Аноним (29), 09:16, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Пункт 1 на Диком Западе: Шериф всегда прав.
     
     
  • 3.157, Аноним (-), 07:19, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Пункт 1 на Диком Западе: Шериф всегда прав.

    Не, на диком западе не так. Там кто первый выстрелил и не промазал - тот и прав. Поэтому шерифу лучше не хлопать клювом и уметь стрелять метко и быстро. Иначе не долго он шерифом будет.

     

  • 1.4, Tron is Whistling (?), 08:29, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Добавят в ботов лимит на размер содержимого, и всё.
     
     
  • 2.10, n00by (ok), 08:39, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +15 +/
    Так и лимит на количество запросов могли бы добавить, но чего-то не хватило.
     
     
  • 3.14, Аноним (3), 08:45, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Новомодные боты лезут с разных IP, не большой 10-20 запросов с одного. Лезут из Китая, Вьетнама, Бразилии. На днях фильтровал AI-ботов и только список /24 подсетей составил около 5000 строк за день. Всего под сотню тысяч разных IP было, непонятно где они их берут, на ботнет не походит.
     
     
  • 4.46, n00by (ok), 10:42, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • –9 +/
    IP разные, а запросы одинаковые, потому и получается фильтровать. 100 тысяч IP, подозреваю, даже особо активный Аноним Опеннет может нагенерировать с двух телефонов.
     
     
  • 5.50, Аноним (50), 10:54, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +16 +/
    Я не особенно активный аноним, но мне очень интересно, как сгенерить 100 000 ipv4 с двух телефонов.
     
     
  • 6.96, _ (??), 15:38, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +8 +/
    Сейчас будет танец "ви таки меня не так поняли" :)
     
  • 6.202, Admino (ok), 21:11, 02/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Он просто путает соединения и IP. Он просто неграмотный.
     
  • 5.56, Аноним (3), 11:27, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Запросы все разные, с разных реалистичных User Agent.  Боты  индексируют разные страницы без повторов и вся свора ботов синхронизирована (видимо задания на загрузку формируются заранее и распределяются). Без штук типа anubis от реальных пользователей их не отличишь.
     
     
  • 6.69, 678 (?), 12:02, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Почему? боты аля-curl не грузят всякие css, как триггер геморно, но можно. с селениумами сложнее, но в целом тоже можно..половина сайтов современных выдает кучу уведомлений, от куки до рекламы, или около рекламы, так что большая часть страницы перекрывается, бот этот попап закрывать не станет, а юзер да - и если бот посмотрел страницу и ничего не закрыл, то для нового запроса можно бан или последнее китайское, в общем не вижу проблемы.
     
     
  • 7.75, Аноним (75), 12:32, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +4 +/
    >бот этот попап закрывать не станет
    >а юзер да

    Нормальный юзер тоже не станет, т.к. эти банеры у этого юзера скрыты юблоком и юзер юаннер не видит в принципе.

     
  • 7.119, Аноним (118), 17:36, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > бот этот попап закрывать не станет

    Чего вдруг? Мои и закрывают, и на куки соглашаются, и как только людьми не прикидываются. Даже мышкой по странице елозят весьма убедительно. Это не так сложно сделать, как тебе кажется.

     
     
  • 8.172, OpenEcho (?), 17:32, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Аха попался ... текст свёрнут, показать
     
     
  • 9.180, Аноним (118), 21:37, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Я и не прятался Занимаюсь скрапингом давно и не думаю бросать Сабж и прочие жа... текст свёрнут, показать
     
     
  • 10.194, OpenEcho (?), 16:39, 02/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Да шучу просто ... текст свёрнут, показать
     
  • 8.200, Аноним (200), 19:41, 02/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    А ты майнер запусти Если закрыли страницу - значит человеки Не закрыли Зашиьи... текст свёрнут, показать
     
  • 4.145, Аноньимъ (ok), 21:27, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Новые крипто"тапалки" появились.
    Чел ставит себе на комп нечто на електроне. И "отдаёт часть ресурсов ПК на общее благо", а за это ему копейки щиткойнов капают.
     
     
  • 5.203, 0xdeadbee (-), 08:41, 03/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Чел ставит себе на комп

    на смартфон.

    > нечто на електроне.

    моднейший фонарик, в которое встроен интересный API.
    программсты фонарика имеют откат от авторов API,
    авторы API сдают прокси в аренду.
    всем хорошо кроме сайтовладельцев.
    на швабре описывали такой сценарий.

     
  • 2.11, Аноним (3), 08:41, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Полный размер становится известен только после распаковки. Отдаётся вполне себе небольшой файл, укладывающийся в лимиты. Степень сжатия в таком файле может быть как 1:10 так и 1:1000000.
     
     
  • 3.20, Tron is Whistling (?), 08:55, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Не "после", а "во время". Плюс распаковка потоковая, весь контент читать не обязательно. Но это слишком сложно, я понимаю.
     
  • 3.21, Tron is Whistling (?), 08:57, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Хотя в принципе могу понять, считать целиком, потом загнать в распаковку - старая добрая привычка скриптеров, вообще не понимающих, что делают. Им и положено страдать от таких zip-"бомб", пусть страдают :)
     

  • 1.5, нитгитлистер (?), 08:29, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –11 +/
    эмм а что это за содержимое такое на 100 тб? типа набор рандомных случайных данных? или все серии ванписа?))
     
     
  • 2.8, Аноним (8), 08:35, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +12 +/
    /dev/zero, написано же
     
  • 2.23, Аноним (23), 08:58, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +7 +/
    Рандомные данные плохо сжимаются, хороши сжимаются повторяющиеся данные - в данном случае нули. Архиватор представит 0000....000 виде "0:количество"
     
     
  • 3.26, нитгитлистер (?), 09:03, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Рандомные данные плохо сжимаются, хороши сжимаются повторяющиеся данные - в данном случае
    > нули. Архиватор представит 0000....000 виде "0:количество"

    о как, понял благодарю

     
  • 3.143, Аноним (143), 21:08, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Вот только в реальности архиватор потатил 80+ метров диска на хранение 100ТБ *нулей*. Похоже, что sparse-файлы не такая уж плохая идея (как минимум, для больших и однородных данных). И упаковка/распаковка почти бесплатная.
     
     
  • 4.158, Аноним (-), 07:24, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • –3 +/
    > Вот только в реальности архиватор потатил 80+ метров диска на хранение 100ТБ
    > *нулей*. Похоже, что sparse-файлы не такая уж плохая идея (как минимум,
    > для больших и однородных данных). И упаковка/распаковка почти бесплатная.

    Понимаешь в чем нюанс? Хранить 80 мегов нулей по современным меркам - почти бесплатно, и за стораж ты 1 раз платишь. А вот 100 Тб трафика на 1 бота...
    1) А скольким ботам ты по 100Тб трафа вообще с твоего сервера нальешь?
    2) И во сколько тебе это обойдется? Дешевле чем хранение 80 мегов?

    Хотя если тебе сервак снесут за неоплату петабайтов трафика - боты конечно обломаются. Но вот тебе то радости с этого?

     
     
  • 5.197, Аноним (197), 19:24, 02/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Речь о том, что для представления 100ТБ однородных байт в виде "[01]:количество" нужно 48 бит. 1 бит хранит двоичное "0 или 1" и 47 бит хранит число байт (минимально адресуемое) - 10^14 (~2^47). То есть 6 байт должно быть достаточно. А получилось в миллион раз больше.
     
  • 2.101, Я (??), 16:14, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    да хоть карта с местонахождением ванписа. главное чтоб жалось хорошо.
     

  • 1.9, qqq (??), 08:37, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –14 +/
    Когда я лет 7  назад такого бота делал, оно качало только текст и видео/аудио с новостных сайтов. Соответственно всякие zip, gz и тп оно не качало. На некоторых добрых сайтах даже особо разбирать html не нужно было, просто можно было понять как у них систематизированы видео-текст и просто перебирать .../1.html .../1.mp4 или как-то так.
    И да, robots.txt оно игнорировало, надо же как-то данные для тренировки моделей собирать.
     
     
  • 2.17, Аноним (3), 08:49, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +9 +/
    Когда ты запрашиваешь .html сервер  отдаёт его тебе сжатым, если браузер выставляет заголовок "Accept-Encoding: deflate, gzip, brotli...", а сервер поддерживает сжатие.
     
     
  • 3.126, Аноним (126), 17:56, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Зачем подсказываете? Пусть бы дальше собирал "данные для обучения моделей" :)
     
  • 2.76, Ося Бендер (?), 12:33, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +8 +/
    В некоторых странах шариата таким умникам руку могут отрубить, так-что будь осторожен, я тебя предупредил.
     
     
  • 3.122, _ (??), 17:50, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    И что ты ему сделаешь?
    Разве что "поцелуешь в уста не говорящие на фламандском"(С) ЛоУШ  :-D
     

  • 1.13, Аноним (13), 08:44, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –2 +/
    > На практике предложенный метод применять не рекомендуется, так как сайт может быть занесён Google в чёрный список и начнёт помечаться вредоносным в браузере Chrome с включённым режимом "Safe Browsing".

    И в чем смысл? Показать какой администратор умный? Не стоило новости.

     
     
  • 2.37, Аноним (37), 10:03, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • –2 +/
    > Показать какой администратор умный?

    Скорее наоборот. Ибо предполагает, что авторы ботов настолько дураки, что не додумаются при потоковой распаковке добавить проверку содержимого, и отбрасывать все, что начинается с этих нулей вместо "<!DOCTYPE html>" и т.п.

    Наивность метода просто поражает.

     
     
  • 3.38, Аноним (38), 10:11, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +7 +/
    > Ибо предполагает, что авторы ботов настолько дураки

    Ты и не представляешь насколько...

     
     
  • 4.43, n00by (ok), 10:34, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ну он и не догадался, что после <!DOCTYPE html> можно отправлять пробелы...
     
     
  • 5.47, Аноним (37), 10:44, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Ну он и не догадался, что после <!DOCTYPE html> можно отправлять пробелы...

    Ну да, ведь остановиться на размере 10-30 мегабайт при потоковой распаковке у ребят ну никак не получиться.

     
     
  • 6.78, Аноним (78), 12:38, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +5 +/
    С вероятностью 99.99% там нет никакой потоковой обработки, зовётся метод на петоне (как вариант на go) в параметрах урл, в ответе распакованный ответ. Вот в распакованном ответе внезапно может случится терабайт пробелов..
     
     
  • 7.160, GG (ok), 10:25, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    С такой же вероятностью этот скрипт запускается гипервизором с лимитом памяти на процесс.
    Он просто упадёт с исключением и бот продолжит работу в нормальном режиме.
     
     
  • 8.165, Аноним (165), 14:53, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    И будет выкачивать этот файл падать выкачивать файл падать короче непонятно в че... текст свёрнут, показать
     
     
  • 9.166, GG (ok), 15:28, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Только у особо жопоруких У нормальных пару раз упадёт и больше туда ходить не б... текст свёрнут, показать
     
     
  • 10.204, Аноним (-), 09:27, 03/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Mission Accomplished Бота же отвадили, грузить серваки не будет, что вам еще ... текст свёрнут, показать
     
  • 3.41, qwe (??), 10:32, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Наивные методы таки работают, хоть и не всегда. Простой пример защиты от спам-ботов: спам-боты часто не видят html-комментарии. Защита банальна: сунуть скрытое поле формы внутрь html-комментария и проверить, кто это поле передаст в post запросе. Браузеры такое поле в тело post запроса не передадут, а боты - вполне, ибо не разбирают DOM-дерево, а юзают регулярки. Не со всеми прокатывает, но со многими.
     
  • 3.42, Аноним (42), 10:33, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Ну забью нулями посередине документа,или другим паттерном легитимного html.
     
     
  • 4.49, Аноним (37), 10:49, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Ну забью нулями посередине документа,или другим паттерном легитимного html.

    А остановить распаковку на пятом десятке легитимного HTML ну никак нельзя, да?

     
  • 3.45, Аноним (-), 10:36, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Как эта проверка может выглядеть Первый байт контента нулевой Или надо провери... большой текст свёрнут, показать
     
     
  • 4.48, Аноним (37), 10:47, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Как эта проверка может выглядеть? Первый байт контента нулевой? Или надо проверить первые 1000 байт? И чё?

    Элементарно: проверяются первые несколько байт на наличие заголовка. Это элементарная проверка, так все браузеры делают.

    Или ты думал, они все куском распаковывают, а уже потом пытаются понять, что внутри?

     
     
  • 5.59, Аноним (3), 11:36, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Или ты думал, они все куском распаковывают, а уже потом пытаются понять,
    > что внутри?

    В классических краулерах и AI-индексаторах для загрузки и разбора используются разные процессы.

     
  • 5.83, Аноним (83), 12:51, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Следующий шаг - делать архив не из нулей, а из повторяющегося триллионы раз легитимного заголовка файла (например, того же самого <!DOCTYPE html>). Файлик не сильно больше получится.

     
     
  • 6.120, Аноним (118), 17:42, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Проверять отношение сжатого к несжатому перед распаковкой ещё во времена фидо придумали, когда зип-бомбы получили такую популярность.
     
     
  • 7.129, Аноним (-), 18:47, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Я не знаю сообщают ли http заголовке о размере распакованного body, но даже если они сообщают, то сервер может наврать об этом, и потом клиент радостно будет распаковывать. И я заверяю тебя, он будет распаковывать до конца, потому что Postel's law: "be conservative in what you send, be liberal in what you accept".

    Но я сомневаюсь, что сервер сообщает о длине распакованного. В любом случае, сервер может просто прекратить сообщать _всегда_, чтобы боты были бы вынуждены либо отказываться вообще работать с сайтом, либо работать в отсутствие предсказуемости длины распакованного.

     
     
  • 8.168, Аноним (118), 15:35, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Это не сервер передаёт, это в заголовке компрессии указывается ... текст свёрнут, показать
     
     
  • 9.196, Аноним (-), 18:15, 02/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Речь о Accept-Encoding deflate Это rfc1951, ты можешь открыть его и поискать т... текст свёрнут, показать
     
  • 5.121, Grand (?), 17:43, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Распаковывается nate.html , а в нем 100 млн раз повторен большой морской загиб Петра Великого. Чем это тебе поможет ??
     

  • 1.15, Аноним (15), 08:46, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –13 +/
    Народ так еще и не понял, что дешевле отдать контент, чем городить все эти "защиты".

    Все, к чему это приводит, это то, что приходится скрабить такой ресурс еще раз.

    Особенно забавно с популярными. Если стоит задача получить дамп, они думают что "мусорные" данные кого-то остановят?

     
     
  • 2.18, bergentroll (ok), 08:52, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +5 +/
    У вас сайт просто приляжет, если безграничное кол-во скриптов будет его выкачивать целиком. Можно будет контент себе с локалхоста на локалхост щедро отдавать.
     
     
  • 3.30, anonymous (??), 09:19, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • –4 +/
    Ну если сайт кладёт кнопку "скачать" за пейвол, то не удивительно, что посетители скачивают текст скриптами.
     
     
  • 4.33, bergentroll (ok), 09:23, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +3 +/
    > Ну если сайт кладёт кнопку "скачать" за пейвол,

    Вообще не об этом статья. За пей-волом рандомный робот не скачает.

     
     
  • 5.44, anonymous (??), 10:35, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    читать даёт постранично, скачать целиком - нет. Очевидно возникает желание всё равно эту информацию скачать. Раньше для этого использовался scrapbook, но теперь он не совместим с принципами файерфокс, и скрапить приходится питоном
     
  • 4.102, Я (??), 16:18, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    щас бы нейрокравлеров посетителями называть..
     
  • 2.28, ddd123 (-), 09:09, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    >Если стоит задача получить дамп, они думают что "мусорные" данные кого-то остановят?

    Если стоит задача получить МУСОРНЫЙ дамп, то "мусорные" данные ни кого не остановят.
    А вот если стоит задача получить НЕ МУСОРНЫЙ дамп, то "мусорные" данные конечно остановят. Не сразу конечно, но ресурс для бота будет включён в чёрный список.

    И я использую cloudflare, их защита от ботов реально работает.

     
     
  • 3.31, Аноним (31), 09:20, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +13 +/
    Только их защита не только от ботов  но и от пользователей работает к сожалению.
     
     
  • 4.39, Аноним (39), 10:25, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Ага. Если случайно попал, пройдя по ссылке - тут же закрыть, не глядя.
     
  • 4.77, Аноним (37), 12:35, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Только их защита не только от ботов  но и от пользователей работает к сожалению.

    Это вообще не проблема, потому что количество пользователей с подозрительными (по мнению Cloudflare) запросами - это капля в море по сравнению с нагрузкой, которую делает даже один единственный бот.

     
     
  • 5.115, anonymous (??), 17:05, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Ну вот вы сами восстанавливаете пользователей против себя.

    Веб мастера плачутся, что каждый труд должен быть оплачен, а пользователь отключает рекламу, гад такой.

    Пользователь плачется, что он каждый день убивает десяток минут жизни совокупно на преодоление клаудвафли, и при таких расходах уже сайт должен пользователю, а не наоборот.

    А зарабатывают на этом ни те, и ни другие.

     
     
  • 6.123, Аноним (118), 17:50, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Пользователь плачется, что он каждый день убивает десяток минут жизни совокупно на преодоление клаудвафл

    Пользователи с подключением к интернету не плачутся. Плачутся только те, кому вместо подключения к интернету продали доступ к провайдерской локалоке с интернетом через cgNAT. Показывать таким капчу это как после посещения туалета руки мыть — вопрос обычной гигиены.

     
  • 6.137, Аноним (137), 20:08, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Ну вот вы сами восстанавливаете пользователей против себя.

    Написано же, что процент таких пользователей - статистическая погрешность.

    И проблема всегда на из стороне: подозрительная сеть, древний браузер (или какойй-то васянофорк Хрома), и т.п.

    > А зарабатывают на этом ни те, и ни другие

    Еще как зарабатывает - спасением денег и времени от ботов, сношающих серверные мощностя.

     
     
  • 7.210, anonymous (??), 13:28, 05/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > или какойй-то васянофорк Хрома

    то есть если меня не устраивает хром или лиса и пользуюсь соответственно ungoggledchromium или librewolf - то можно меня не учитывать? Типа универсальный клиент-серверный веб протокол придумали идиоты, и никаких клиентов быть не должно, кроме хрома?

    Вот реально, после такого хочется самому занятся ботоводством.

     
  • 3.32, anonymous (??), 09:20, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +11 +/
    > И я использую cloudflare, их защита от ботов реально работает.

    Она и от людей защищает. Я заколебался доказывать что не бот при каждом переходе

     
     
  • 4.163, Аноним9000 (?), 12:27, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Меня кстати клаудфларь меньше всех достает. Зачастую нужно просто галочку поставить и никаких ребусов не решать. Хуже всех в РФ этом отношении Яндекс: даже аутентифицированному мне может выдать три капчи подряд
     
     
  • 5.209, anonymous (??), 13:23, 05/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    А вы попробуйте заблокировать доступ к канвасу, чтобы фингрепринтинг не ходил.
     
  • 4.175, Аноним (175), 19:40, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    У меня они один-два раза галочку показывают и пропускают. А вот, если гугловская встретится... Ну что же, пара минут выборов велосипедов обеспечены, ибо, в первые попытки обязательно попросят "попробовать снова", пусть всё и правильно выбрано
     
  • 3.79, Аноним (79), 12:40, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Если еще проблемы нет с багами в Cloudflare, как это было недавно, когда они написали, что откатились, решают проблему, а по факту - нет.
     
  • 2.51, Аноним (50), 10:57, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Я всё отдал бы, у меня зеркало Слаквари, но боты весь месячный трафик за пару дней высасывают.
     
     
  • 3.71, Аноним (-), 12:04, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Я всё отдал бы, у меня зеркало Слаквари, но боты весь месячный трафик
    > за пару дней высасывают.

    Что за зеркало такое лажовое что ему боты траф высаживают? А пользователи с него не качают чтоли? Тогда и зеркало можно просто снести - никто и не заметит.

     
     
  • 4.104, Я (??), 16:24, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    ну сейчас по сути любое среднее зеркало которое хотя как-то индексируется в интернете и хостится на сервисе с месячным лимитом траффика. потому что в отличие от пользователей аи боты качают всё подряд некоторые ещё и по несколько раз а потом часто даже не смотрят в эти данные или не понимают их и качают снова.
     
  • 4.146, Аноним (-), 21:29, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Что за зеркало такое лажовое что ему боты траф высаживают?

    Бот легко может твой сайтик выкачивать каждые шесть часов. И таких ботов может быть десяток или больше.

    > пользователи с него не качают чтоли?

    Этих пользователей быть может сто штук и качают они раз в месяц отсилы. Причём качают они не всё, а только то, что надо.

     
     
  • 5.159, Аноним (-), 07:36, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Наиболее наглых, с диким RPS, может иметь затро тт лить по критерию с этой подс... большой текст свёрнут, показать
     
  • 2.134, Аноним (-), 19:57, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Народ так еще и не понял, что дешевле отдать контент, чем городить все эти "защиты".

    О, ты из тех, кто надеется изменить общественное мнение? Так они тоже надеются, и твоим же способом: сделав скрабинг дороже тебе. Успехов повышать друг-другу косты, владельцы датацентров будут рады.

     
     
  • 3.205, Аноним (-), 09:29, 03/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > О, ты из тех, кто надеется изменить общественное мнение? Так они тоже
    > надеются, и твоим же способом: сделав скрабинг дороже тебе. Успехов повышать
    > друг-другу косты, владельцы датацентров будут рады.

    Как говорится, добрым словом и питолетом^W зипбомбой можно достичь большего чем одним только добрым словом :)

     
  • 2.154, fuggy (ok), 01:14, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Так дешевле соблюдать robots.txt и рейт-лимит. Но что-то "умные" боты до этого не додумались.
     

  • 1.16, Fbekwbshru (?), 08:48, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    99% ботов не умеет в сжатие контента
     
     
  • 2.25, Tron is Whistling (?), 09:03, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +5 +/
    Есть подозрение, что написаны оные на нодежсах с пыхтонами, которые просто вызовы библиотек "скачай мне это" - там васянская библиотека сама попробует распаковать, с немного предсказуемым результатом.
     
  • 2.68, Аноним (37), 12:00, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > 99% ботов не умеет в сжатие контента

    С чего ты взял?

     
     
  • 3.94, Fbekwbshru (?), 15:30, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Делал эту бомбу много лет назад, периодически смотрю логи.
     
     
  • 4.113, Аноним (113), 16:55, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +3 +/
    > Делал эту бомбу много лет назад, периодически смотрю логи.

    Звездишь. Ибо сам факт остутствия Accept-Encoding сам по себе говорило бы, что это бот.

     
  • 2.72, Аноним (-), 12:05, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +5 +/
    > 99% ботов не умеет в сжатие контента

    Их можно было бы влет отсеять по критерию "не умеет сжатие -> пшелнафиг"

     
  • 2.87, Аноним (87), 13:24, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Тем, кто не прислал вменяемый Accept-Encoding, можно сразу 400 отдавать. Это точно и не человек, и не полезный бот.
     

  • 1.19, Аноним (23), 08:55, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    глупость какая, если бот распаковывает архив, то он может в заголовке архива посмотреть оригинальный размер содержимого и не распаковывать его
     
     
  • 2.22, Tron is Whistling (?), 08:58, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Там нет "архива" и нет "размера содержимого".
    Другое дело, что распаковывать-то надо потоком при закачке, а не всё целиком. Ну или хотя бы лимит распаковщику отдавать.
     
  • 2.24, tty2 (?), 09:01, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Вы только заголовок прочитали?
     
  • 2.52, pfg21 (ok), 11:00, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    в распаковку еще надо внести код учитывающий зип-бомбы :) обычно такого нет.
    ибо дать четкое алгоритм, что вот этот архив с сжатием в 5 раз не зип-бомба а вот со сжатием в 10 раз зип-бомба нет.
     
     
  • 3.70, Аноним (37), 12:03, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Это вообще не проблема, ибо данные распаковываются потоково.

    Если после распоковки первой сотни килобайт у тебя там нули или другой мусор вместо <!DOCTYPE..., то дальше можно не продолжать.

     
     
  • 4.89, YetAnotherOnanym (ok), 14:36, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Если после первого же такого документа бот отвалится от сайта - задача выполнена.
    А если нет - можно и продолжить. Дать боту легитимный хтмл, из которого тот нахарвестит линков на лайв-видосики неограниченной продолжительности сплошного чёрного ухд - и пусть он их качает до второго пришествия.
     

  • 1.34, Соль земли (?), 09:36, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    > сайт может быть занесён Google в чёрный список

    в обход nofollow? тогда ясно кто

     
  • 1.35, Аноним (35), 09:48, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Новые Дон Кихоты и Санчо Пансы на борьбу с ботами вышли)
    В наш век, нейронки выкачивают через ботов весь интернет.
    И здесь двояко - можно постоянно вычислять и запрещать (боты постоянно меняю поведение и подстраиваются под ваши защиты + у каких нибудь дипсиков будут весьма ограниченные знания о вашем сайте/организации), либо искать какой то компромисс и банить только особо безбашенные боты)
     
     
  • 2.62, Аноним (62), 11:47, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Ну, мой ответ прост - внешний сайт перевести тупо на статику, оставив только при... большой текст свёрнут, показать
     
     
  • 3.107, Я (??), 16:33, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    да тут какбы можно и клаудфлейровскую защиту купить если у тебя высоконагруженный комерческий сервис, а вот когда ты малый вебсервер держишь который тебе денег много не приносит то ты чем всё это оплатишь? веселее челам у которых невысоконагруженные аписервисы на облаках с оплатой за запрос хостятся так что пользователи никогда за месячную бесплатную квоту не выбиваются, а аишные боты запросами за минуту могут всю квоту выбить.. и радуйся если у тебя было настроено отключение по достижению лимита иначе потом можно получить счёт на несколько тысяч долларов.
     
     
  • 4.117, Аноним (118), 17:20, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > а вот когда ты малый вебсервер держишь который тебе денег много не приносит то ты чем всё это оплатишь?

    А сколько «всего этого» надо оплачивать? У меня в точности как ты описал: малый вебсервер (ещё и хостящийся под кроватью), тех денег что он приносит даже на домен не хватает. Естественно он за CloudFlare, чтобы не палить домашние адреса. Стоит мне это удовольствие аж целых $0.0 каждый месяц вот уже два года, кроме ноября 2024, когда на мой сайт налетело ИИ-ботов из-за одной публикации. Тот ноябрь обошёлся мне аж в $1.74. Но уже к декабрю безумие прекратилось и всё вернулось на круги своя за $0.0.

     
     
  • 5.124, Олег (??), 17:52, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Держишь сайт для себя - так заблоч их всех нафиг. Здесь друзья-девопсы кучу рецептов выложили. Другой вопрос - компания, фирма. Хотят они чтоб о них нейронки знали или нет.
     
     
  • 6.169, Аноним (118), 15:39, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Держу сайт для всех, но не «компания, фирма». Мелкий частный бизнес в одно лицо. С клаудфларью нет проблем вообще.
     
  • 4.135, Аноним (62), 20:04, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    тогда зачем ты его держишь если не ради прибыли, значит ради хобби, а за хобби,... большой текст свёрнут, показать
     
  • 2.90, YetAnotherOnanym (ok), 14:49, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > В наш век, нейронки выкачивают через ботов весь интернет

    Этот "наш век" продлится ровно до краха очередного IT-пузыря. Когда основателей стартюпов на тему "мы разрабатываем систему ИИ" охрана инвестфонда будет выкидывать на мороз - сразу всё буйство ботов волшебным образом прекратится.
    > банить только особо безбашенные боты

    С простым критерием - если бот распознаётся как бот, то это безбашенный бот.

     
     
  • 3.98, Олег (??), 16:00, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    ААА, все пропало, гипс снимают, клиент уезжает. Все эти... плохие парни со своими ИИ скоро положат весь интернет. Срочно всех заблокировать!
    Хотим мы или нет - ИИ это действительность, сколько угодно можем ворчать, ругаться - ничего от этого не изменится и количества ботов не изменится, а скорее увеличится. Не, есть вариант заблочить всех нафиг, и так каждое утро начинать с этого.
    Лет 15 назад была проблема со спамом на почтовиках, не буду вдаваться в подробности, приняли стандарты, приучили всех тех спамеров к порядку - и сейчас все норм. Так и здесь - нужен "стандарт", система.
     
     
  • 4.153, Аноним (153), 01:07, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    >Хотим мы или нет - ИИ это действительность

    А шо, его таки изобрели уже?

     

  • 1.36, Аноним (36), 09:49, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Это всё AI-скрейперы, корпорации тренируют модели нового поколения. Ставьте себе Anubis, его создал хитрый жук, и у него есть ещё и хитрый план: https://github.com/TecharoHQ/anubis/discussions/258#discussioncomment-12816106

    P.S.: специально посмотрю, удалят ли и этот комментарий, потому, что мои абсолютно безобидные комментарии трут бесжалостно последние полгода как минимум.

     
     
  • 2.61, Аноним (-), 11:43, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Это всё AI-скрейперы, корпорации тренируют модели нового поколения.
    > Ставьте себе Anubis, его создал хитрый жук,

    Еще не хватало этот квази-майнер ставить, беся пользователей. Осталось еще блин начать майнить на пользователях - и тогда боты вообще станут всячески велкам :). А если удалось задетектить бота - и начать майнить на нем дольше и наглее... ммм... так можно и подзаработать даже. На ботах. Если они сдуру JS отрастят.

     
     
  • 3.109, Аноним (36), 16:40, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Альтернатива? Критиковать-то мы все горазды. Я лично знаю только три: 1. опять чёрные/белые списки, и в итоге туда попадают вообще невиновные; 2. опять капча; 3. платить денюжку. Я уж лучше подожду пока меня Анубис пустит.
     
     
  • 4.184, Аноним (-), 05:52, 02/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Альтернатива? Критиковать-то мы все горазды. Я лично знаю только три: 1. опять
    > чёрные/белые списки, и в итоге туда попадают вообще невиновные; 2. опять
    > капча; 3. платить денюжку. Я уж лучше подожду пока меня Анубис пустит.

    Я лично просто вкатил request rate limits на "проблемные" AS. Благо их не особо много, в основном китайцы, и в основном с откровенно "хостинговых" диапазонов. И как только начинают наглеть - самозабаниваются. Можно сделать и на уровне вебсервера, и на уровне фаера.

    А плач этого анубиса про боты с рандомных айпишников - фигня. Я вижу вполне конкретные фирмы и их хостинговые AS в большей части запросов. Потому что выискивать по помойкам левые проксики это все же гемор и стоит денег. Фигарить оптом с своих серваков - проще.

     
  • 4.198, Аноним (197), 19:31, 02/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Аутентификация парой ключей, секретный выдаётся по паспорту.
     
  • 2.93, MinimumProfit (?), 15:18, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Anubis - это гадость, не пускает на сайт Гнома.
    Откройте https://gitlab.gnome.org/GNOME/gtkmm-documentation/tree/master/examples/book/

    Вот что он пишет:
    "Making sure you're not a bot!
    Calculating...
    Difficulty: 4, Speed: 0kH/s
    Why am I seeing this?
    Protected by Anubis from Techaro. Made with ❤️ in 🇨🇦."

    И всё, не пускает.

     
     
  • 3.97, Котэ (?), 15:48, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Включи жабоскрипт
     
     
  • 4.111, Аноним (36), 16:45, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Да, наверняка нет жабоскрипта и куки напрочь отключены. Хардкор, короче.
     
     
  • 5.141, Ан Оним (?), 20:55, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Всё включено. Просто виснет
     
  • 3.105, аноним43481234 (?), 16:29, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    пустило же
     
  • 3.110, Аноним (36), 16:42, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Какой браузер? У меня даже на древнем планшете с Android 5 открывается в Fennec, пусть и с тормозами, а на домашнем компе вообще за 2 сек.
     
     
  • 4.140, Ан Оним (?), 20:53, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Яндекс Бр. Из Андроида открывает, а из Linux - нет
     
     
  • 5.170, Аноним (118), 15:42, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    С васянофорками всегда только проблемы. Не надо ими пользоваться.
     
  • 3.144, Аноним (144), 21:19, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Открывается из IOs, Safari.
    И из iPhone, Safari.
     
  • 3.148, Аноним (148), 22:23, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    >Anubis - это гадость, не пускает на сайт Гнома.

    Какая кавайная капча \>_</

     
  • 3.185, Аноним (-), 05:53, 02/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Anubis - это гадость, не пускает на сайт Гнома.
    > Откройте https://gitlab.gnome.org/GNOME/gtkmm-documentation/tree/master/examples/book/

    Вот отлично гнумно решило самозабанить гиков с своего сайта. Пусть умрут жестокой смертью.

     

  • 1.53, Аноним (53), 11:05, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Банишь все ASN с type == Hosting и наслаждаешься тишиной на сайте :)
     
     
  • 2.63, Аноним (62), 11:50, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +3 +/
    не все боты живут на бесплатных фермах гугл лабс и амазон.
    некоторые уже построены на ботнетах из роутеров и камер с уязвимостями.
     
     
  • 3.162, Аноним (42), 12:07, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Вы таких от обычных пользователей только по поведению самого юзер-агента можете отличить. Идея (под)резать ASN откуда не будет стучаться злой на медленную закачку клиент намного адекватнее звучит, чем превращать свой сайт в неиндексируемую помойку из белых страниц с ссылками на js.
     
     
  • 4.171, Аноним (118), 15:45, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Поинтересуйся сколько стоит residential proxy. Их на вес продают. Поэтому что-то там по ASN фильтровать — только память под фильтр впустую тратить. Скрейпинг не вчера в openai придумали, с этой ветряной мельницей интернет борется уже десятилетия.
     
  • 2.176, Аноним (175), 21:04, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Иди с такими предложениями, ты так пользователей с впн отрежешь, а им почти все пользуются сейчас, по понятным причинам
     

  • 1.60, Аноним (60), 11:38, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –4 +/
    > может быть занесён Google в чёрный список
    > и начнёт помечаться вредоносным в браузере Chrome с включённым режимом
    > "Safe Browsing".

    Так это ж вообще не баг а фича. Банит с сервера не только ботов - но и иди0тов с "safe" browsing от spyware corp.

     
  • 1.64, Аноним (64), 11:51, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Я так понимаю речь идёт о конторе Netcup которая долбит тысячами запросов в секунду с разных ipv6 на сайты которые закрыты через клаудфларе.
     
  • 1.66, Аноним (62), 11:54, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Вопрос, кто тут еще самый умный буратина:
    админы домашнего локалхоста, которые зачем то выпустили свою тушку наружу, без защиты соединения из трех буков,
    или админы вебсерверов, получающих за это зарплату, но почему то до сих пор не внедривших защиту от ботов, или не переехавших к надежному хостеру с защитой.
     
     
  • 2.155, fuggy (ok), 01:26, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Ты из каких будешь? Или продавец платных защит от хостера?
    "Во время золотой лихорадки выгоднее продавать лопаты".
     

  • 1.82, Tester (??), 12:47, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    и что.. ну умрет один fork у бота, ядрое его пристрелит. дальше то все по прежнему будет работать
     
  • 1.84, Аноним (84), 12:59, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    а почему бы не переключать их на  dev/random ?
     
     
  • 2.88, Аноним (88), 13:24, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Читать дев рандом и отдавать клиенту - проигрышно по ресурсам, по сравнению с затратами клиента. Сервер выполнит в 2 раза больше работы, чем клиент.
    Какие цели у вашей идеи? Чтобы было прикольнее?
     
  • 2.91, YetAnotherOnanym (ok), 14:54, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > а почему бы не переключать их на  dev/random ?

    Зазипуй выдачу из /dev/random (на сколько терпения хватит) и сравни размер зипа и оригинала. Потом зазипуй выдачу /dev/zero и тоже сравни размеры.

     
  • 2.139, Аноним (144), 20:33, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Чтобы создать /dev/random, нужно куда больше процессорных мощностей чтобы создать /dev/zero.

    Зачем тебе это.

     

  • 1.86, Аноним (88), 13:22, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Каждое поколение обречено придумывать зип бомбы вновь и вновь Не кэширование от... большой текст свёрнут, показать
     
     
  • 2.136, Аноним (-), 20:06, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Будет нагрузка 100-1000 rps (вместо привычных 0-1) в зависимости от времени дня. Что тогда? Тоже зип бомбы?

    Тогда можно денег зарабатывать в 100-1000 раз больше, а значит можно больше платить хостеру за железо. Оплачивать же железо, чтобы боты могли бы его гонять никто не хочет.

    > Нули в гзипе никто дочитывать не будет и одним куском в память класть тоже.

    1. Откуда ж ты знаешь?
    2. А если браузер столкнётся с http контентом, который начинается с мегабайта нулей, что он будет делать? Скипнёт нули? Отличный способ защитить контект от ботов. Бот небось после первой сотни килобайт оборвёт соединение. Превосходно: можно не обращаться к бд и в целом не заниматься генерацией ответа.

     

  • 1.95, YetAnotherOnanym (ok), 15:32, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Порадовали рассуждения ботовладельцев о детектировании зип-бомб.
    А кто сказал, что зип-бомба может быть только из /dev/zero и выдаваться только в ответ на запрос html-документа? А картинку дофигалиард на дофигалиард белых пикселей не хотите? А PDF с такой картинкой? А нескончаемый лайвстрим радикального чёрного цвета HD/UHD? А вы не забыли про модный нынче подход к созданию сайтов, когда сервер отдаёт html-документ без контента, но с жабаскриптом, который скачивает и отображает контент? Там серверу и отдавать мегабайты сжатых нулей не надо - жабаскрипт сам на месте всё сделает. И вместо урожая данных хозяин бота получит записи в логе о прибитом ООМ-киллером безголовом хроме. И так далее, и так далее...
     
     
  • 2.99, Аноним (99), 16:05, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Какая-то чушь, если честно. У воркера вполне ограниченные ресурсы на работу и он не станет долбиться вечно. Если что не так, добавляем сайт в чёрный список и удаляем из выдачи. Чтобы вернуть, платите деньги потом.
     
     
  • 3.100, Аноним (99), 16:08, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    А ведь корпы могут позволить себе перераспределить немного ресурсов, чтобы долбить умников посильнее. Ещё в большем минусе останутся.
     
  • 3.114, YetAnotherOnanym (ok), 16:59, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > удаляем из выдачи

    Товарищи санитары, тут скрипткидди возомнил себя Гуглом.


     
     
  • 4.116, Аноним (99), 17:20, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    То-то и оно, детишкам подгадить сможешь чуть (которые и не могли быть проблемой), зато следом прилетит сполна. Вполне по заслугам.
     
  • 2.125, Аноним (144), 17:53, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > рассуждения ботовладельцев о детектировании зип-бомб

    Что ты можешь знать о ботовладельцах, создающщих серверы на неттопах c Avito.

     
  • 2.127, Grand (-), 17:58, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Можно стстистические справочники отдавать,в селичинами подкорректированными процентов на 20 в произвольную сторону. Чтоб у них нейронки галлюцинировали.
     
     
  • 3.128, Аноним (144), 18:18, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Можно стстистические справочники отдавать,в селичинами подкорректированными процентов
    > на 20 в произвольную сторону. Чтоб у них нейронки галлюцинировали.

    Ну нейронка пока что не очень умная.
    Из диалога с GPT, понял что она выдает мне ответы которые я хотел бы услышать.
    Потому как если начать уточнять, начать туда сюда вокруг термина вопорса, то ответы GPT, меняются. И могут быть каардинально противоположные, главное чтобы пользователю нравится.

    А так же замалчивание потенциально правильных ответов, иногда. Тоесть когда 1 или 2, а ответ, решение в 3 м.

     
  • 2.150, Аноним (148), 22:34, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    О нет, вы догадались о страшнейшей защите от ботов, перед которым дрогнет любой CDN. О нет, я не могу раскрыть корпоративный секрет, что таким простым способом вы сможете справится самостоятельно. Вот чёрт, я проболтался
     

  • 1.103, Ivan_83 (ok), 16:20, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Есть и другие способы.
    Делаем TLS сертификат с RSA на 16384 бита, форсим connection close и всё :)
     
     
  • 2.206, Аноним (-), 09:34, 03/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Есть и другие способы.
    > Делаем TLS сертификат с RSA на 16384 бита, форсим connection close и всё :)

    И наслаждаемся CPU в полку у сервака? Самоуничтожение цели конечно валидный вариант, и боты обломаются, если сервак слишком занят считая хендщейки, но....

    А если вы думали что у вон того датацентра откуда боты лезут меньше вычислительных ресурсов чем у вас - это совсем не факт.

     

  • 1.106, Аноним (106), 16:30, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Просто несимметричную задачу на 5 секунд. Типа запрос на человека появляется только после решения этой задачи.
     
  • 1.108, Аноним (106), 16:34, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Бот Просто организует исключение на размер ответа.
     
     
  • 2.132, Аноним (144), 19:12, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Ну можно зашифровать, zip бомбу, под нечто стандартное.
    А если исключить шифования, то многие мессенджеры, например используют шифрование, конфедициальность данных.
     

  • 1.130, Grey Croco (?), 18:53, 30/04/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Кстати , тут промелькнула здравая идея - вместо зип-бомб отдавать про то, что: Американцев не было на луне ,ВИЧ - был разработан ЦРУ , про прикладную эфиродинамику и всемирный заговор релятивистов, про то, что масоны заставили Рузвельта плыть по канализации в рамках обряда инициации, от чего он и захворал поиломелилитом . В общем, всю чушь, Весь СПИД-инфо - чтоб нейросети натренировались на всякой гадости..
     
     
  • 2.133, Аноним (62), 19:52, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    было уже.
    иначе почему нейронки генереруют тебе глупые ответы, а  не правильные?
     
  • 2.138, Аноним (144), 20:29, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > чтоб нейросети натренировались на всякой гадости.

    Нейросети не тренируются на этой гадости, они берут информацию из источников которые ты не можешь редактировать.

    Только если GPT, выдаст тебе ссылку на сайт. Но не сама модель GPT.

     
  • 2.147, Аноним (31), 22:06, 30/04/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Легче просто отдавать им идеалы коммунизма. Может чему и научаться :)
     
     
  • 3.161, Аноним (144), 10:54, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > отдавать им идеалы коммунизма.

    Бесплатная газировка, все дела.

     
  • 2.207, Аноним (-), 09:41, 03/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > , про прикладную эфиродинамику и всемирный заговор релятивистов, про то, что
    > масоны заставили Рузвельта плыть по канализации в рамках обряда инициации, от
    > чего он и захворал поиломелилитом . В общем, всю чушь, Весь
    > СПИД-инфо - чтоб нейросети натренировались на всякой гадости..

    А за трафик вы будете платить? Тогда любой каприз за ваши деньги. Этот ваш спидинфо сжимается намного хуже чем нулей пачка. А с нулями - налил гаду мег, а он жует цать гигов, и посмотрим как ему столько проца и оперативы на процессинг ЭТОГО :)

     

  • 1.156, Аноним (156), 05:13, 01/05/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Следующим этапом, в новостях:

    >Владельца сайта судят за несанкционированный доступ к компьютерной информации. Его сайт отдал боту эксплоит, владелец бота оценил ущерб в олимпиард.

     
  • 1.173, OpenEcho (?), 17:37, 01/05/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Что только не придумают, лиж бы не учится...


        -A INPUT -p tcp --dport 80 -m limit --limit 25/minute --limit-burst 100 -j ACCEPT

     
     
  • 2.178, Аноним (178), 21:19, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    >--dport 80

    Так только себя можно заблочить.

     
     
  • 3.193, OpenEcho (?), 16:34, 02/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > Так только себя можно заблочить.

    Это пример ! "Dont try at home" А себя надо всегда ставить чуть-чуть выше в правилах ;)

     
  • 2.181, Аноним (118), 21:57, 01/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Мой бот прямо сейчас качает сайт какой-то местечковой продуктовой сети, вместе со всеми ассетами, с 400 _разных_ айпи-адресов, принадлежащих каким-то людям проживающим в том регионе. Качается сайт с понедельника по несколько часов в день, к воскресенью должен уже закончить. Сайт за CloudFlare, кстати (это к впросу об эффективности противодействия). Ни один айпишник не был забанен и не упёрся в капчу. С такими лимитами как у тебя я бы и быстрее управился наверное.
     
     
  • 3.186, Аноним (186), 12:51, 02/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    А зачем это качать?
     
     
  • 4.201, Аноним (-), 19:46, 02/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    > А зачем это качать?

    Ему наверное интересно - сможет он одним ботом задолбать целый клаудфларь? А таки - не сможет. Клаудфларь 400 конекций как-нибудь переживет.

     
     
  • 5.212, Аноним (118), 19:12, 05/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Клаудфларь задолбать так же просто, как её не задалбывать. Это совершенно не интересно. Я это делаю за деньги.
     
  • 4.211, Аноним (118), 19:11, 05/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Конкурирующая сеть заплатила за слив каталога и апдейт инфы в течение полугода.
     
  • 3.195, OpenEcho (?), 16:43, 02/05/2025 [^] [^^] [^^^] [ответить]  
  • +/
    >  Качается сайт с понедельника по несколько часов в день

    Да проблема не скрeйперах, если они не чокнуто-агрессивные, а по большей части "секьюрити" анализаторы (или наоборот, те самые которые прикидываются) ломящиеся с AWS, Azure и GCP.

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2025 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру