The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Создать новую тему
 - Свернуть нити
Пометить прочитанным
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | Архив | Избранное | Мое | Новое | | |  
Форум Разговоры, обсуждение новостей
В Debian намерены добавить Rust в число обязательных зависимостей к APT, opennews, 01-Ноя-25, 22:28  [ | | | ] [линейный вид] [смотреть все]


Выпуск мобильной платформы /e/OS 3.2, opennews, 07-Ноя-25, 11:54  [ | | | ] [линейный вид] [смотреть все]


Компания AMD выпустила версию ПО Ryzer AI для GNU/Linux, opennews, 09-Ноя-25, 18:31  [ | | | ] [линейный вид] [смотреть все]


Релиз свободного игрового движка OpenMW 0.50, opennews, 09-Ноя-25, 10:56  [ | | | ] [линейный вид] [смотреть все]


Релиз дистрибутива SUSE Linux Enterprise Server 16 , opennews, 06-Ноя-25, 22:53  [ | | | ] [линейный вид] [смотреть все]


В KDE на 100 МБ снижено потребление памяти. Выпуск Plasma Mobile 25.11, opennews, 08-Ноя-25, 11:32  [ | | | ] [линейный вид] [смотреть все]


Выпуск композитного сервера Hyprland 0.52 и GUI-библиотеки Hyprtoolkit 0.2, opennews, 09-Ноя-25, 09:30  [ | | | ] [линейный вид] [смотреть все]


В Chromium решено удалить поддержку XSLT и прекратить использование libxslt и libxml2, opennews, 06-Ноя-25, 13:52  [ | | | ] [линейный вид] [смотреть все]


Выпуск smolBSD 0.2, инструментария для создания быстозагружаемых микро-сборок NetBSD, opennews, 09-Ноя-25, 12:22  [ | | | ] [линейный вид] [смотреть все]


Выпуск межсетевого экрана firewalld 2.4.0, opennews, 07-Ноя-25, 09:21  [ | | | ] [линейный вид] [смотреть все]


Проект Linux Containers представил атомарно обновляемый дистрибутив IncusOS, opennews, 08-Ноя-25, 14:57  [ | | | ] [линейный вид] [смотреть все]


Google опубликовал Magika 1.0, инструментарий для определения типа содержимого файлов , opennews, 07-Ноя-25, 14:28  [ | | | ] [линейный вид] [смотреть все]


Представлена мобильная платформа РОСА Мобайл 2.2, основанная на KDE Plasma Mobile, opennews, 06-Ноя-25, 10:24  [ | | | ] [линейный вид] [смотреть все]


Перенос разработки Fedora с Pagure на платформу совместной разработки Forgejo, opennews, 07-Ноя-25, 13:58  [ | | | ] [линейный вид] [смотреть все]
Из GNOME Shell и Mutter удалён код для поддержки X11, opennews, 05-Ноя-25, 22:50  [ | | | ] [линейный вид] [смотреть все]


Обновление X.Org Server 21.1.20 с устранением 3 уязвимостей , opennews, 29-Окт-25, 22:31  [ | | | ] [линейный вид] [смотреть все]


Представлен формат изображений AVIF 1.2, opennews, 04-Ноя-25, 09:28  [ | | | ] [линейный вид] [смотреть все]


Релиз Tor Browser 15.0, opennews, 29-Окт-25, 11:54  [ | | | ] [линейный вид] [смотреть все]


Выпуск UDisks 2.11.0 с переработанной поддержкой ATA SMART , opennews, 07-Ноя-25, 11:16  [ | | | ] [линейный вид] [смотреть все]


Протест японского сообщества Mozilla Support из-за навязывания машинного перевода, opennews, 06-Ноя-25, 11:12  [ | | | ] [линейный вид] [смотреть все]


Организация Rust Foundation учредила фонд поддержки сопровождающих, opennews, 05-Ноя-25, 09:36  [ | | | ] [линейный вид] [смотреть все]


Релиз свободного воксельного игрового движка Luanti 5.14.0, opennews, 10-Окт-25, 21:42  [ | | | ] [линейный вид] [смотреть все]


Программно-аппаратная платформа CHERIoT 1.0 для повышения безопасности кода на языке Си, opennews, 04-Ноя-25, 20:13  [ | | | ] [линейный вид] [смотреть все]


Опубликована среда рабочего стола LXQt 2.3.0 , opennews, 05-Ноя-25, 19:53  [ | | | ] [линейный вид] [смотреть все]


Представлен маршрутизатор Turris Omnia NG с прошивкой на базе OpenWRT, opennews, 04-Ноя-25, 23:05  [ | | | ] [линейный вид] [смотреть все]


Выпуск языка программирования Nim 2.2.6, opennews, 03-Ноя-25, 22:51  [ | | | ] [линейный вид] [смотреть все]


Раздел полезных советов: Отсеивание AI-ботов на web-сервере через Cookie, auto_tips, 03-Ноя-25, 16:17  [ | | | ] [линейный вид] [смотреть все]
  • Ну вот, теперь пейсaтeли таких ботов знают как это обойти Думаю лучше таким бота, повар (?), 16:17 , 03-Ноя-25 (1)
    Ну вот, теперь пейсaтeли таких ботов знают как это обойти.
    Думаю лучше таким ботам намеренно "скармливать" всякую чушь и делать это всем владельцам сайтов.
    Может тогда удастся принудить их к соблюдению правил.
    Хотя это наверно пустая надежда, когда у людей нет ни совести, ни чести...
    сообщить модератору +/ответить
  • Есть готовый модуль nginx testcookie Не забыть добавить нормальных ботов в белы, S_Paul (??), 18:14 , 04-Ноя-25 (2)
    Есть готовый модуль nginx testcookie. Не забыть добавить нормальных ботов в белый список.
    сообщить модератору +/ответить
  • Передавать куки с помощью requests или httpx тривиально Скрейпинг требует доста, Аноним (538), 20:45 , 04-Ноя-25 (3) –2
    >что многие боты запрашивают заранее предопределённый набор страниц и не передают Cookie, выставленные в ответ на прошлые запросы.

    Передавать куки с помощью requests или httpx тривиально. Скрейпинг требует достаточной имитации браузера, включая полную поддержку экзотических схем сжатия и заголовков. Эта имитация всего лишь для душевного спокойствия тех дураков (часто не знаешь, из их числа админ, или нет, но иногда дураки себя маркируют, прямо в каждую страницу в футер вставляя угрозы судом тем, кто скачает данные), которые "ой, у меня в метриках аномалия, пойду всё анально огорожу" не понимающих, что их сайты всё равно отскрейпят, только оверхед будет больше. Статические ресурсы я обычно не качаю; качать их не приносит пользы ни мне, ни владельцам сайта.

    В крайних случаях – Cloudflare или ситуации, когда прямо совсем нежелательно быть обнаруженным (например, при создании датасета для CAPTCHA не хотелось бы, чтобы вебмастер просто взял и сменил алгоритм) – можно использовать полноценный хром с расширением, которое выполняет весь скрейпинг и сбрасывает результаты на локальный веб-сервер, работающий на fastapi. Но плясать под клаудфларь дорого, унизительно и недостойно, я предпочитаю этого избегать. Идеальное решение по-прежнему: ссылки на дампы данных в футере сайта.

    Естественно, запросы - будь то Python-код или расширение для браузера - идут с значительными переменными задержками, превышающими оные в robots, маскируясь под обычный трафик. Торопиться некуда: большинство данных, которые скрейпящие в состоянии с пользой обработать, обновляются нечасто, при этом старые данные остаются актуальными. Владельцы сайтов, пожалуйста, делайте страницу, выгружающую всё, что можно выгружать, в дамп, и желательно с дельтами, как, например, это делают флибустьеры. Это было бы взаимовыгодно и вам, и скрейперам. Вы можете пытаться ссать против ветра, но это совершенно бесполезно и не приносит пользы никому. Те кто скрейпят - им же для дела надо, это не котики, без которых можно обойтись.

    сообщить модератору –2 +/ответить
    • Владельцы сайтов не обязаны делать вам хорошо Скорее это вы должны думать, как , Аноним (1), 11:26 , 07-Ноя-25 (7)
      Владельцы сайтов не обязаны делать вам хорошо. Скорее это вы должны думать, как не делать им плохо. Потому что на самом деле не являетесь теми, для кого создается и наполняется сайт. Правильно было бы как-то платить за данные, если в дальнейшем из них извлекается какая-то прибыль.

      Да, я в защите тоже играл, и интеллект ботоводов у меня тоже вызывает много вопросов. Иногда кажется, что на той стороне вообще псевдоразумный гриб. А на опеннете смотри-ка, посты пишет...

      сообщить модератору +/ответить
  • Как время от времени скачивающий половину интернета человек, выскажусь на тему б, Аноним (1), 11:07 , 07-Ноя-25 (5)
    Как время от времени скачивающий половину интернета человек, выскажусь на тему бесполезности.
    В скрипте дописывается одна строчка с установкой этой куки, да и дело с концом.

    Реально мешает, когда сервер использует куки (в комбинации с IP) для того, чтобы "красить" клиентов и лимитирует использование для каждой, особенно если код ответа нормальный и контент отдаваемых страниц отличается не принципиально.
    Но практически всегда это каким-то образом обходится. Так, я спарсил данные об организациях определенного типа всего мира (что-то часов за 6) с гугл карт, вообще не меняя куки, одним и тем же окном, даже не пряча хедлесс хромиум. Тупо за счет алгоритма обхода карты, который делал бессмысленной защитку, обрезающую количество ответов. Поля получал, проверяя их взаимное расположение и текст (мутагенез с ид и классами бесполезен). Весь скрипт, где-то строк 500. Никакого рокет сайенс.

    Эникей админы, у которых до сих пор сайты на морально устаревшем языке и фреймворке, лучше бы думали, как его убрать за кэширующий сервер. Например, если куки нет, можно кидать контент в кэш на ключ урла и отдавать оттуда. Есть куки - запрашивать с апстрима по классике. Куки давать не всем подряд, а только тем, кому будет показан другой контент страниц. Сможете раздавать хоть гигабит трафика с одного ядра без особого напряга. Но вам же надо ботов наказывать, а не гарантировать уровень сервиса :)

    К слову, ботов порезать проще простого. Достаточно красить трафик по автономкам и без ограничений пускать только интернет-провайдеров, предоставляющих услуги населению. Но это же думать надо и как-то страшненько.

    сообщить модератору +/ответить
    • Красить трафик стало вредно после экспансии хитрых NAT-ов и уползания ощутимого , Аноним (116), 12:14 , 07-Ноя-25 (8)
      Красить трафик стало вредно после экспансии хитрых NAT-ов и уползания ощутимого числа пользователей в VPN.

      Блокировать единичные скачивания не проблема, с этом и rate limit справится. Проблема в распределённых скрапперах, которые заваливают запросами с десятков тысяч или даже сотен тысяч разных IP (один раз за сутки насчитал около 300 тысяч), которые шлют запросы параллельно в 10-100 потоков. Когда на одном сервере несколько доменов - всё становится вообще печально и напоминает DDoS. Самое мерзкое, что с каждого IP приходит по несколько десятков запросов и потом IP меняется. С этим ещё можно бороться, когда трафик идёт из отдельных корпоративых подсетей. Но последнее время научились что-то вроде ботнета делать и привлекать обычных пользователей, которые за небольшую денежку ставят себе браузерный плагин для "помощи" обучения LLM.

      По поводу оптимизации и отдачи статики, сайт остаётся жив, но из-за ботов кардинально вырастают затраты, когда используются площадки с оплатой за ресурсы или трафик.

      сообщить модератору +/ответить
      • Красить трафик резать трафик Смысл в том, чтобы обслуживать мусорный трафик , Аноним (1), 13:22 , 07-Ноя-25 (9)
        Красить трафик != резать трафик. Смысл в том, чтобы обслуживать мусорный трафик в последнюю очередь с самым низким приоритетом.
        Критерий наличия авторизации (и других признаков "естественности") очевидным образом снимает или ослабляет лимиты, даже если там один с ботами провайдер.

        >из-за ботов кардинально вырастают затраты

        Подрубать "серым" клиентам скорость соединений/коннекты. Чтобы поток парсера максимально долго торчал в памяти на той стороне, читая по чайной ложке. Вынуждать использовать хедлесс браузер (памяти никогда особо много не бывает). Зашумлять верстку тегами/комментами, убирать из нее тексты/ид/классы, за которые просто зацепиться. Все это конечно не про мейнстримный фронтенд с уо разработчиками.

        >в распределённых скрапперах, которые заваливают запросами с десятков тысяч или даже сотен тысяч разных IP (один раз за сутки насчитал около 300 тысяч), которые шлют запросы параллельно в 10-100 потоков. Когда на одном сервере несколько доменов - всё становится вообще печально и напоминает DDoS. Самое мерзкое, что с каждого IP приходит по несколько десятков запросов и потом IP меняется

        Люди, занимающиеся парсингом и DDOS - одни и те же люди. Конечно это все напоминает ддос)

        сообщить модератору +/ответить
Debian прекращает поддержку архитектур armel и mips64el, opennews, 04-Ноя-25, 23:38  [ | | | ] [линейный вид] [смотреть все]


Представлен порт ядра Linux для WebAssembly, запускаемый в браузере, opennews, 02-Ноя-25, 12:00  [ | | | ] [линейный вид] [смотреть все]


Выпуск Wine 10.18. Доля Windows-игр, работающих через Wine и Proton, приблизилась к 90%, opennews, 01-Ноя-25, 10:04  [ | | | ] [линейный вид] [смотреть все]


 
Пометить прочитанным Создать тему
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | Архив | Избранное | Мое | Новое | | |



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру