Различные открытые проекты столкнулись с волной сбоев и замедления работы элементов инфраструктуры из-за повышения активности индексаторов содержимого сайтов (скраперов), собирающих информацию для обучения больших языковых моделей или для обеспечения ИИ-поиска в Web (например, компания Anthropic вчера представила вариант модели Claude 3.7 с возможностью поиска в Web)...Подробнее: https://www.opennet.me/opennews/art.shtml?num=62925
> robots.txtМне всегда казалось странным это "решение". Очевидно же, не работает.
Как раз прекрасно для блокировки кривых ботов работает, чтобы разных правильных ботов по ошибке не заблокировать.
Делаешь в запрещённой через robots.txt области скрипт, видимый только ботам по скрытой ссылке, и автоматом блокируешь всех, кто к нему обратился.
Расскажите, как это должно работать. Несколько раз писал ботов для сборки нужных мне данных, они в robot.txt даже не заглядывали, а парсили строго определённые страницы по строго определённым критериям.Некоторе время мне попалось прекрасное: сайт содержал в себе защиту от парсинга, и эта защита просто выдавала пустую страницу, как будто ничего не произошло. Могли хотя-бы 429 код отдавать, или по ip забанить. В результате бот просто слал десятками тычяч запросы в холостую.
Добавляешь в блок-лист по IP того, кто заглядывает по указанной в robots.txt скрытой ссылке, не?
> Расскажите, как это должно работать.вот так и должно.
> они в robot.txt даже не заглядывали
т.е. ты намеренно делаешь пакость потому что тебе ННАДА.
> и эта защита просто выдавала пустую страницу, как будто ничего не произошло.
> Могли хотя-бы 429 код отдавать, или по ip забанить.нет, дорогуша, никто тебе жизнь облегчать не собирается - могли бы еще и заставить какой-нибудь хэш 256 посчитать.
Именно этого пакостники вроде тебя и заслуживают.
Тратьте свои ресурсы вхолостую, забивайте базы мусором, вы так уважали других людей, что достойны такого же уважения в ответ.
Ну это нормально.Программисты веба ничего никому не нужны (и поэтому туча рекламы и блокировка парсинга, который позволяет посмотреть сайт без рекламы, вытщаив самое полезное).
Пользователи тоже никому ничего не должны и могут с спокойной совестью парсить такие сайты и вытаскивать контент. В идеале потом где-нибудь делиться с другими такими же пользователями скриптами для вытаскивания контента.
Не получается соскрапить в лоб рекурсивным курлом — соскрапят через селениум, делов-то. И как ты один браузер от другого отличишь? Правильно, никак, пока не начнёшь анализировать поведение пользователя. И тут окажется, что отдать контент дешевле, чем время между кликами и длину скролла считать. Когда-то уже все научились один раз делать так, чтобы гуглобот не укладывал сайт индексацией, научатся ещё раз. Ну или уступят дорогу тому, кто умеет.
access-list deny ip ещё дешевле
Это дороже будет, чем простой curl. Так юзеры не запрашивают 10 открытий страниц в секунду. Это простой rate-limit trottling. А если они будут как юзеры по одной странице в полминуты запрашивать, то пожалуйста. И анализировать поведение можно на стороне клиента, например всякие хэши посчитать, нагрузка на сервер будет минимальная. Только так они не скачают базу и за год.Поэтому будет проще договорится с владельцем и предоставить данные в машинном формате, возможно за отдельную плату. Вон как со stackoverflow договорились. И не мешать обычным пользователям.
>Так юзеры не запрашивают 10 открытий страниц в секунду. Это простой rate-limit trottlingДля этого rate-limit должен быть адекватным. Одно дело, когда с белого адреса идёт поток запросов, и другое дело, когда из-за NAT-а.
это проблема уровня сайтов яндекса или какого-нибудь, прости г-ди, fakesnews.Если "из за ната" идет поток запросов 10/s на одну и ту же страницу, то либо тебя поломали и срочно беги через казахскую границу (удалять с нее cp уже поздно, у товарищмайора нотариально заверенный скриншот), либо это не человек.
Ты ведь не яндекс, и даже не vk. Крайне маловероятно что сайт твоего банчка из последней сотни вдруг срочно понадобился аж десятку человек, сидящих за одним и тем же натом, причем аж с секундной синхронизацией.Но ловушка на ботоводов, кормящая их с ложечки дерьмом, выглядит гораздо надежнее и эффективнее гадания на SYN-RECEIVED.
>Если "из за ната" идет поток запросов 10/s на одну и ту же страницуЕсли рассматривать страницы вроде пагинации, то один человек сможет за секунду запросить как минимум две таких страницы. Надеюсь вы понимаете, что даже небольшая семья может запросто ичерпать подобный лимит?
> даже небольшая семья может запросто ичерпать подобный лимитНда.
А уж если рассмотреть что к небольшой семье зашла компания друзей в гости и они все с вайфая решили по 2rps сделать, то еще и больший лимит можно исчерпать!
> отдать контент дешевлеНьет, Молотофф. Когда я тебя десятки миллионов страниц общим весом в десятки и сотни гигабайт, причём они не с диска читаются и выстреливаются, а генерятся на лету с дёрганьем либ и обращениями к БД, то проще после десятка запросов заблочить IP (или подсетку, или автономку), чем сутки отдавать всё, что нажито непосильным трудом.
Ух, какие вы злые.
>Тратьте свои ресурсы вхолостую, забивайте базы мусоромВставляется простейшая проверка, после чего на сайт обратно отправляются те тысячи запросов, которые не обработались. Если им не жалко их обрабатывать, то и мне не жалко их послать
>вы так уважали других людей, что достойны такого же уважения в ответ.Когда я зашёл на сайт, то внимательно посмотрел, никакого намёка на платное апи, тем более, принимающего мои карты - не увидел.
это про sourcehut?плохо смотрел.
>это про sourcehut?Нет
> т.е. ты намеренно делаешь пакость потому что тебе ННАДА.Это еще кто кому пакости делать первым начал. Как только robots.txt стали использовать не по назначению, так его естественно, что стали игнорировать. По назначению - это чтобы боты не лезли в разные служебные части сайта, а не чтобы не давать людям сохранить сайт.
Всё они правильно используют.
Контент сайта - интеллектуальная собственность его владельца. Он определяет, на каких условиях позволить тебе с этим контентом ознакомиться. Некоторые сайты при первом посещении (при отсутствии у браузера печеньки) для этого выкатывают оверлей с изложением своих условий. Другим достаточно неких общепринятых правил, соблюдения которых они ожидают от посетителя. Среди таких правил - учёт содержимого robots.txt при индексации.
Швятая интеллектуальная собственность. Общепринятое правило поведения другое, что если чего-то выложено в открытый доступ, то его можно при желании сохранить себе на комп. Не хочешь, чтобы сохраняли - не выкладывай открыто. Но не paywall, когда значит на халяву хотим проиндексироваться, но чтобы юзеры платили. Нужно чтобы находили платный контент - выкладывай реферат к нему для открытого доступа, а не хитропопствуй.Слишком большая нагрузка на сайт - помоги скачивать, например, торрентом дамп раздавай. Норма приличия тут - не класть канал сервера сайта потоком запросов, задержка в 1 сек. более-менее нормальная.
> Общепринятое правило поведения другоеГы... ты решил, что можешь диктовать правила владельцу ресурса?
Диктовать? Это же у них проблемы с нагрузкой, а не у меня. Ну вот пусть сами и разбираются.Ресурс в интернете? В интернете! Я - пользователь. А чем я его читаю и куда сохраняю их парить не должно.
Их парит нагрузка, и если у них с ней проблемы - решать их они будут в первую очередь за счёт таких вот качальщиков. И скажи спасибо, если тебя просто забанят, а не напихают тебе отравленного контента.
Ну бан это такое. Отравленный контент не встречал, но буду качать x2, и сравнивать, для детекта.
Реальность такова, что владелец - это делец, который взял у кого-то денег (см. историю спасения Хабра, например), на них арендовал чужой сервер, купил готовый сайт у фрилансера и "наполняет" его контентом коллективного авторства. Такой вот собственник. Вахтер на входе. Но гонору..
ну вот тебя и забанят
> В результате бот просто слал десятками тычяч запросы в холостуюТак тебе и надо.
если юзер не презервуар и не китаец -прекрасно работаетно так-то кто пускает к себе трафик из китая - сам знает, на что идет
Вот у вас есть подкроватный хостинг. Как понять из какой страны траффик?
libmaxmindОн плохой, но подкроватному хостингу плевать на это.
https://nginx.org/ru/docs/http/ngx_http_geoip_module.html
Правильное решение - это торрент трекер. Закидываешь туда всю открытую несекретную информацию, дамп сообщений и прочее. И пусть пользователи сами между собой шарят торрент, качают и разбирают, а сайт не нагружают.Ещё в старые добрые времена было бы принято делать ссылку "зеркало", где показывались зеркала сайта и давались инструкции как завести себе такое зеркало.
Это и этично и куда правильнее чем подлянки друг другу строить.
А если ИИ ещё и раздавать будет круглосуточно, так ему ещё спасибо скажут.
Ещё более правильное — выкладывать матералы в виде изначально предназначеном для просмотра у себя на компе. Например, CHM или архив с HTML–страничками.
Плохих ботов даже блокировка по useragent не берёт, и даже по ip подсетям.
Наоборот, это хорошее решение. Для вежливых ботов. Там пишешь сюда не ходи, там история редактирований или бесконечный календарь, а то зациклишься. Хорошие боты это соблюдают и в ловушку не попадают. Защищать admin.php таким способом не стоит, но из индексирования можно и исключить на всякий случай.
Пока интернетики держались на энтузиастах - все работало. А потом пришли маркетолухи/пизнесмемы и прочий мусор, вот и сломалось.
Так самая главная проблема что потом они насоздают сайтов со статьями полностью сгенерированными нейросетями.
пока что это не проблема, а решение - видишь на сайте в начале страницы картинку с восемью пальцами и ногами в разные стороны - можно не читать галиматью под ней.Такое применение ИИ мы одобрять!
В смысле — потом?
>"насоздают сайтов со статьями полностью сгенерированными нейросетями. "На которых будут учиться другие нейросети.
Это чисто юридическое решение, не техническое. Работает только в пользу государств и дзяибатсу. Ну и бизнесов чуть поменьше. Если же вы выкатите техническое решение - то вас просто законом обяжут поделиться данными с "озером" (версия 2.0, но главныйбенефицар всё тот же).
> По статистике Cloudflare около 1% всего трафика в сети приходится на ИИ-ботов.Победит ли ИИ-траффик порно-траффик? ;)
Думаю они объединяться в ИИ-порно-траффик)
И поработат мир)
Но возможно ИИ может создать кошкодевочек ИРЛ - и тогда каждому будет кошкожена, и ии-прон станент ненужен)
Замахнулись на роботов для секса но, это для тех у кого денег побольше. Почему им это надо это вы у них спрашивайте. Кого-то и негра приютить у себя в жилище из Африки устраивает - это разновидность проституции.
Кого-то и негра приютить для секса у себя в жилище из Африки устраивает - это разновидность проституции.
Расшифруй.
ИИ боты траффик не генерируют, лишь потребляют и нагружают
Ага, счас, как говорится. Недавно угорал над нейросетями. Яндексовская отказалась рисовать картину в стиле Микеланджело сотворение Адама. Причина отказа: авторкие права Микеланджело.))) Чуть со стула не упал.))) У Микеланджело в эпохе Возрождения.
Китайская нейросеть тоже отжигала. Рисовать не отказывалась, авторские права не смущали. Но... в процессе рисования она выясняла, что получившийся контент строго +18, обнаружив порнографию в собственном исполнении, падала.)))
Так что ИИ вполне может генерировать порнотрафик там, где его никто не ожидает.
> Так что ИИ вполне может генерировать порнотрафик там, где его никто не
> ожидает.но тебе его не покажут!
Не победит, пока ИИ не научится этот трафик сам генерировать))
Интересно, если кто-то поднимет зеркало ресурса, выкачав к себе файлы, то как сторонний источник может убедится, что это зеркало без бекдоров?
Никак.... Проверка по крипто подписки если только но и то не 100% вариант
Я вот тоже об этом думал, но потом понял, что эту подпись почти никто не ставит, в том числе и я, когда публиковал свой код.
Единственное решение это свое зеркало. Иметь копии тех проектов которые тебе нужны на всякий случай
Если ресурсов всего интернета не хватает для обучения ботов, что они надувают количество данных даже такими вещами как git blame, которые можно получить локально, то это очень многое говорит о качестве самого обучения
> то это очень многое говорит о качестве самого обучениякак будто без этого не было очевидно, какое там "качество"?
> ИИ-ботов, игнорирующих запрет на индексацию, отдавать фиктивные страницы и зацикливать ботов на их обработке.Годно, бот нарушил правила -> бот зациклился.
Что годно ? мусорную нагрузку и трафик как убрать от них ? это не решение.
Предложи лучше. Они всё равно будут долбиться. Только вместо обращения к реальной базе, генерируется лёгкая рандомная страница. Можно с неё ещё редирект на скачивание гигабайтного файла со speedtest добавить. И таким образом индекс ИИ будет испорчен и тогда может они одумаются чтобы не создавать паразитную нагрузку.
> Можно с неё ещё редирект на скачивание гигабайтного файла со speedtest добавитьа speedtest в чем перед тобой виноваты?
А за то что с провайдерами корешились и результаты подставные отдавали
Просто на сайте удобная ссылка скачать гигабайт рандома, вдруг кому надо. А раз бот нажал значим ему надо. Разработчики бота же не научили отличать полезные ссылки от скрытых ссылок с атрибутом nofollow.
спидтест, полагаю, не в обиде - они ж живут с торговли аналитикой, им НУЖНО чтоб этот мусор кто-нибудь с них регулярно качал.А тут еще и китайские и индийские диапазоны, с которых нормальные юзеры заходят исключительно редко.
итого - с точки зрения анубис - я бот. Ок. Идет туда же куда любители клаудшмариной крыши. Скорее всего еще и эффективно выбросит твой ценный (нет) сцайтик из индекса гугляндекса.nepentis запрещенный в robots.txt похоже годная затея - одновременно кормит ИИ дерьмом, ничем не мешает нормальным пользователям и нормальным ботам, собирает полезную статистику (blacklistd легко присобачить, оно на lua) и без марковского модуля не жрет особо ресурсы (можно просто отключать по достижении критичного LA).
А какой у тебя браузер? Какой-нибудь непонятный "конфиденциальный форк форка"? Или расширения стоят, блокирующие все скрипты?
> А какой у тебя браузер?а кого это колебет? Система позиционирующаяся как заshitа от ботов - вместо этого защищает от людей. Все. Ее писал - м-к, и испольуют - м-ки.
И да, у ИИ прекрасно получится подделывать не только user-agent, но и типовые характеристирки твоего единственноверного хромонога распоследней версии - на то он и ИИ.
А вот разобраться где текст а где марковская сеть - эт вряд ли. И ни один человек туда не забредет случайно. Ни с каким ниправильным-ниправильным-блакирующим-маиоченьоченьнужные-(для слежки)-скрипты, что характерно.
Это общая проблема. Одна большая интернет компания постоянно считает что я граблю их ресурсы. Хотя и не собирался. Казалось бы, прогеров и девопсеров в Яндексе полно, всех алгоритмами на собесах отмучали.А вы от мини проекта хотите лучшей работы...
>Это общая проблемаЭто не проблема. Это дуэль двух вхтёров, только один из них сидит на стороне клиента в браузере, а второй - на стророне сервера
>ИИ-боты сканируют всё до чего могут дотянутьсяВсё правильно делают. Современные поисковики настолько испортились, что уже невозможно через них нормально искать информацию. Через ИИ получается эффективнее.
Соглашусь.
Странно, что заминусовали.
Наверное не во всех областях. Не так давно решал одну задачку (связанную с так всеми нелюбимыми X11). ChatGPT навыдавал некоторое количество весьма интересных вещей, но все оказались нерабочими - то есть эти малоизвестные функции в X есть, но не доведены до того состояния, чтобы от них была какая-то польза. Решение нашлось только ковырянием ссылок на форумы, выдаваемых обычным поисковиком (вот только не помню, уткоход это был или на гугл пришлось полезть).
> Через ИИ получается эффективнее.Не обольщайся, это ненадолго.
> Современные поисковики настолько испортилисьТолько какое отношение к этому имеют сайты? Дудосят *их*, а не испорченные поисковики.
Блокировка по user-agent пока работает.
Юзерагент элементарно подменяется
Ну допустим в M**a работают беспринципные товарищи, которые харвестят хуже китайцев, но свой юзерагент подменить им чсв не позволит. А если забанить корпоратов, кои лично мне на моём опыте доставляют куда больше проблем чем частники, то... проблем становится на 90% меньше. А то что гит можно уронить просто обходом ссылок - это проблема гита.
>но свой юзерагент подменить им чсв не позволитОни обучали на пирацких книгах с Флибусты, им плевать
Таки да, они возьмут всё, но юзерагент не изменят. ЧСВ не позволит.
> А то что гит можно уронить просто обходом ссылок - это проблема гита.Которую они переложат на ботовладельца простым баном.
>> А то что гит можно уронить просто обходом ссылок - это проблема гита.
> Которую они переложат на ботовладельца простым баном.Ну пока только стоны гитоюзеров о том что банить - это прям работа.
это если автор бота не презервуара если презервуар - поставит вон юзер агента от edge, как китайцы. и что ты им сделаешь?
> Блокировка по user-agent пока работает.Не работает.
Есть куча примеров, как всякие бомж-браузеры меняют агент, чтобы маскироваться под более успешных конкурентов.
Ну и юзеры тоже таким шалят.Так что приходится использовать другие методы и/или добавлять капчу.
Может потому что некоторые сайтоваятели делают редирект на badbrowser.php поставьте наш новый супер-пупер яндекс.браузер.
В последние несколько дней идёт массированный ДДОС с бразильских IP-адресов. Стоит апач, чем это можно полечить?
CloudFlare
через fail2ban можно настроить regex правила, но и дефолтных фильтров на самом деле хватит, чтобы отсеивать агрессивных
Анубис неплохо справляется и лого у него прикольное, но на коредуба он довольно долго отрабатывает. Гномовцы молодцы, что подсуетились
Такое чувство что нужно этот анубис в дефолтный шаблон сайта добавить. Даже для хомпейдж блогов.
> перебирая всё, вплоть до истории редактирования.чтобы скормить в ИИ и поучить её делать очепятки ? хорошие же будут результаты на выходе после такого обучения...
Воскрешение Silverlight в соседней темке уже не выглядит таким уж странным. Скоро всем придётся уйти глубже в wasm пряча данные в слое абстракции без прямого к ним доступа, а ботам выдавать минимум инфы, полезной для индексации ресурса. Сейчас фактически ИИ модели воруют все данные до каких могут дотянуться. По работам художников уже прошлись, украв весь Артстейшн, по Гитхабу прошлись, изымут и всё остальное, при этом вы ещё и заплатите за повышенную нагрузку. Дивный новый мир, в каждой железке теперь будет (уже есть) нейронка корпорации, которая будет отвечать на все вопросы и учить вас думать правильно.
к чертям подробностидаешь бутлерианский джихад
>Скоро всем придётся уйти глубже в wasm пряча данные в слое абстракции без прямого к ним доступаПарсить json куда приятнее, чем html
Когда 99,9% процентов контента в сети будет тот мусор, который сам ИИ и нагенерил - всё это резко сдохнет. Потоки синтаксически и стилистически верного бреда никому не интересны.
Я тоже всех нахрен забанил у себя по юзерагенту. Говноедские боты
>юзерагентуВообще удивительно, что этот хедер до сих пор отдают
они просто обычные юзерагенты после бана честным отдаютбыли кроулер алибаба, стал Microsoft Edge и Firefox
таких тоже пару забанил, нехрен с винды всю историю коммитов клона репы qemu читать
Уродские сайты приходится скрапить
@
Вебмастер видит, что ты парсишь и делает сайтишко еще более уродским и тормозным, навтыкав ловушек
@
Скрапер переписали
@
Вебмастер добавил капчу
@
Скраперы ответили AI-OCR
@
Вебмастер воткнул Клаудфлару
@
Обошли и клаудфлару, и proof of work, и geoipdb, и DNSBL, и много что еще
...
Чтобы зайти на сайтишко, нужно подтянуть квалифицированную ЕЦП, ввести OTP из SMS, заполнить форму указав персональные данные, верифицироваться по сетчатке и пройти собеседование в Дискорде
@
Все равно соскрапили
@
Делает глагне и все остальное закрывается логином через ЕСИА, попутно прибив любую возможность открыть по прямой ссылке
@
Вставялет мультимедийную "Beat the DarkSouls boss on 512x512 window on WASM"-капчу
@
Блеклист заменяет на вайтлист айпишником. Айпишники специально добавляются полуавтоматически после верификации человеком и очень легко из него вылетают, например за автоматические запросы
@
Нормальным людям становится невозможно пользоваться таким сайтом, но его все-равно соскрапят. Наймут 100500 фрилансеров за копейки, но соскрапят.
>Beat the DarkSouls boss on 512x512 window on WASMА в это я бы поиграл. Есть может нечто подобное, может ради фана делал кто? Не столько капча, а как мини игра в вебе, на тему.
Хакер в столовой :)
Это лишь теория, найдите владельца бизнеса которые не додумались бы выдавать порционные пакетики с солью.
@
К скарйперам приходит юридическая контора и скрейперы засужены в ад. Любые отмазки разбиваются о то, что в robots.txt явно запрещено скрейпить и что robots.txt - индустриальный стандарт, если вы его не реализовали - то вы автоматически виноваты, как минимум recklessness.
@
нанимается 10000 индусов, которым всплывает окошко пропарсить url такой-то и они тапают - ДА. Благодарные пролетарии спасены от голодной смерти через автоматизацию производства ! Ура ! Ура !
А это уже conspiracy и уголовка.
> Любые отмазки разбиваются о то, что в robots.txt явно запрещено скрейпить и что robots.txt - индустриальный стандарт,Разве что обычного лоховатого Васю Пупкина так засудить получится. Явно запрещено - это если заключен договор (платный или бесплатный) между владельцем сайта и юзером, хотя бы в виде договора присоединения и в договоре явно запрещен скрейпинг. Все остальные измышления про индустриальный стандарт идут лесом.
Однако очень редко какие владельцы сайтов связываются с договором, ибо хотят и рыбку съесть и это самое.
А если капчу сделать?
Капчу в консоли по git clone показывать?
Что б дево-псам жисть медом не казалась !!
Вот ИИ ворует внаглую код. Совсем оборзели. И не понятно как решать проблему? Код же не закроешь.
> И не понятно как решать проблему? Код же не закроешь.Как раз понятно - не платите им. Сами загнутся.
А вот если б не перегрузка, то мы б такое сделали, такое, вообщем огого какое...!
> При блокировке IP-адресов, боты возобновляли работу с новых адресов, а при блокировке User-Agent переходили к индексации под идентификаторами типовых браузеров.Я просто офигеваю с этого. Просто не представляете, как у меня с этого мягко сказать раздражение вызывает. Их блокируют по useragent, так они притворяются обычными юзерами, при этом ведут себя совсем не доброжелательно. Ещё и с десятков подсетей одновременно долбятся.
Я если делал краулера, то всегда прописывал специальный useragent и соблюдал robots.txt. Даже писал валидатор для robots.txt, чтобы вебмастера могли проверить что они правильно создали файл. Если администратор адекватный, он внесёт исключения чтобы определённые адреса, которые создают бесконечные рекурсии не индексировались. А на те которые создают повышенную нагрузку добавляет задержку между обращениями. Конечно среди них тоже попадаются неадекватные, которые сразу после нескольких обращение от curl (или не популярного браузера) банят IP навечно. Конечно обратной связи между клиентами и администраторами сайтов не хватает.
> Я если делал краулера, то всегда прописывал специальный useragent и соблюдал robots.txt.А зачем? Задача стоит "скраулить контент", а не "учтиво снять шляпу, поинтересоваться роботс-файлом, поклониться, сказать 'спасибо'..."
Так сайт и так скраулится, ну не за минуту, а за час. Например мне нужно заархивировать сайт или выкачать новые статьи из rss раз в день. И без мусорных страниц, и в клаулер проще не нужно добавлять обнаружение зацикливания. Если вебмастер адекватный, он например может отфильтровать лишние страницы вроде /cgi-bin или допустим написать на почту автору useragent бота. Но такое можно было представить только на заре интернета.А что значит "скраулить контент" перевожу - заработать на чужих данных, а ещё нужно обогнать конкурентов поэтому нужно скачать быстрее него в 100 потоков. Таких вредоносов и нужно банить. А полезных ботов, например webarchive нужно оставить в покое. Как мы видим не подписывают и притворяются браузером только плохие боты. Все хорошие боты или боты поисковых систем всегда подписываются. Делаем вывод.
>Так сайт и так скраулится, ну не за минуту, а за час.Какой-то маленький у вас сайт.
>а ещё нужно обогнать конкурентов поэтому нужно скачать быстрее него в 100 потоковДаже если не ddos-ить сайт, а качать всего в пару потоков, то сколько времени вы будете выкачивать сайт типа хабра?
11 дней. Всего-то.
Как я вижу, вы не учли тот факт, что для картинок и комментариев нужны отдельные запросы.
Не, ты давай без романтики интернета 90-ых. Ситуация: ты в офисе ФААНГа. Прилетела таска: скраулить сайт. Ты берешь и пишешь скриптец, игнорируя роботса. Может быть ты в курсе про существование роботс.тхт и говоришь непосредственному начальнику: "хорошо бы по-правильному, как в 90-ых, попереписываться с 'вебмастером' по почте, чтобы краулилось не за минуту, а за час." Начальник поднимает брови и молча переназначает таску на другого исполнителя, а тебе дает задачу перекрасить кнопку в корзине.Идем далее. Ситуация. Скриптец работает, и тут прилетает таска: сайт перестал отвечать. С этим надо разобраться побыстрее. Ты просто берешь и меняешь юзер-агент. Сайт снова начал отвечать. Все, задача решена, можно пойти попить кофе на кухню. Тут нет никаких "заработать на чужих данных". Исполнителям тупо пофиг на все эти идеалы 90-ых. Они про них может быть даже и не в курсе. Задача стояла "скраулить контент", а не "повзаимодействовать с third party 'вебмастерами' (г-споди, слово-то какое допотопное!), попереписываться по почте на тему того, как бы нам по-правильному краулер забабахать."
Ну давай отметём все эти переписки по почте. Приходит задача скраулить сайт - начинаешь краулить в 100 потоков, через десять секунд твои ip банят. Потом будет: насяльника vps не работает, давай денег новый покупать.
Или. Пишешь имя MyCompanyBot, смотришь в robots crawl-delay 5 секунд, не заходишь на всякие мусорные страницы вроде истории редактирования и бесконечного календаря, и не нужно обрабатывать фильтрацию ссылок-ловушек, спокойно скачиваешь сайт за пару часов, vps не банят, лишних расходов нет, а данные нужны начальнику только к началу следующего месяца.
Например у гугл бота есть такая "почта для сисадмина" в 2025 https://search.google.com/search-console/googlebot-report?hl=ru
> Например у гугл бота есть такая "почта для сисадмина" в 2025 https://search.google.com/search-console/googlebot-report?hl=ruНе хотел бы тебя огорчать, но они на ней - ИИ тренируют. Никакие человекообразные это не читают и не собираются. Единственный способ взаимодействия с гуглем - личные контакты с выскопоставленными индусами.
Через них периодически (те кто через вторые-третьи-четвертые руки смог выйти на такого индусского гения) удается что-то изменить. А на эту деревню этому дедушке можешь даже не тратить время на писанину.
> Не, ты давай без романтики интернета 90-ых. Ситуация: ты в офисе ФААНГа.В этом офисе решение принимает настолько высокозадранный индус, что да, выполняй и кланяйся. Но зачем ты такой дешовый раб?
> на кухню. Тут нет никаких "заработать на чужих данных". Исполнителям тупо
тот индус вполне собирается - заработать (ну хотя бы на свой бонус) и именно на чужих данных, раз именно чужие ему сегодня приспичило.
Исполнителей-винтиков, конечно, никто не спрашивает, но иногда все же от них требуют соблюдения правил - faang скандалов не любит.
Поэтому гуглевые боты - учитывают robots.А вот альтернативно-одаренные китайские стартапы - вообще ненеслышали. Насяльника у них следует кланяться в пол и лишних вопросов не задавать.
>Их блокируют по useragent, так они притворяются обычными юзерами, при этом ведут себя совсем не доброжелательно. Ещё и с десятков подсетей одновременно долбятся.Рискну предположить, что ввести платное API, где запросы можно посылать без проблем вы не догадались.
> не учитывают правила доступа к контенту, заданные на сайтах через файл robots.txt.Это не правила, это рекомендации. То, что их кто-то к ним прислушивался говорит лишь об их благосклонности.
Ну и реакция Дрю на тоже забавляет. Такие вот приоритетные задачи, что вместо обычного бана через фаервол, который реализуется за час, «пришлось» тратить время на выстраивание ловушек. Натура у человека такая, хлебом не корми, дай только свой праведный гнев куда-нибудь направить, но только чтобы при этом всенепременно нагадить ближнему, желательно корпорации. Что поделать, популярность ресурса в интернете требует инфраструктуры.
Но есть отличный выход: спрятать всё за форму логина и без аккаунта не пущать. И с аккаунтом тоже воли не каждому давать, как раньше на закрытых трекерах, пока рейтинг не наберёшь не все разделы сайта видны. А ещё лучше просто отключиться от глобальной сети. Кому надо тот дискету с софтом по почте купит.
> Такие вот приоритетные задачи, что вместо обычного бана через фаервол, который реализуется
> за час,да за две секунды - deny any, ok
Внезапно, человек вместо этого хотел осложнить жизнь - ботов, а не нормальных посетителей своего сайта. И, похоже, неплохой инструмент нашел, делающий именно то что и требовалось.
> Но есть отличный выход: спрятать всё за форму логина и без аккаунта не пущать.
а дура4ок с опеннета все продолжает вещать как бы он всем пакостей понаделал. Но к счастью ты не ДеВолт и твой сервер не нужен абсолютно никому, кроме может ИИ.
> Но к счастью ты не ДеВолт и твой сервер не нужен абсолютно никомуТак и сайт ДеВолта не нужен абсолютно никому, что он ложится от пары запросов от скраппера.
> и твой сервер не нужен абсолютно никому, кроме может ИИ
Это получается, что у Анонима сайт даже более нужный, ибо не ложится от пары запросов от скраппера
> Так и сайт ДеВолта не нужен абсолютно никому, что он ложится от пары запросов от
> скраппера.раз скраппер его нашел - значит, таки нужен.
> Это получается, что у Анонима сайт даже более нужный, ибо не ложится от пары запросов от
> скрапперапросто этот сайт настолько никому не нужен, что и скраппер после второго запроса уходит, расстроенный.
> человек вместо этого хотел осложнить жизнь - ботовНо пакостей наделать мечтаю внезапно я. Я так сразу и подумал.
Проблема в том что они мешают обычным пользователям создавая паразитную нагрузку. Если бы они не ломились толпой и ходили только в ночное время и с соблюдением таймаутов, никто бы может и дела бы не обратил. Так значит не работает файрвол. Вон пишут же что банишь по ip, так они на другие подсети переходят.Да robots.txt рекомендации и плохо что их не делают стандартами. Как в целом и остальные RFC для http рекомендуемые: "The key words SHOULD - This word, or the adjective "RECOMMENDED". Хотя вроде что-то специально для ai ботов хотели придумать.
>Если бы они не ломились толпойА вы откуда знаете, кто ломится толпой? Если вас будет парсить две независмые группы, как вы поймёте что их две, а не одна?
>и ходили только в ночное времяА ночное время это когда? Всё же часовые пояса сущестуют
>и с соблюдением таймаутовА где это прописывается, чтобы бот мог узнать максимальную частоту запросов?
> две независмые группы, как вы поймёте что их двеВот cloudflare как то научился. Например, если "перебирают каждую страницу в git log из разных подсетей.
> ночное время это когда
Зависит от языка сайта. Например для русскоязычных сайтов пик это по московскому времени. Если нет, то можно просто размазать равномерно.
> бот мог узнать максимальную частоту запросов
robots.txt crawl-delay или для поисковиков можно прямо у них на сайте прописать что краулить мой сайт не чаще чем X. Да это всё только рекомендации. Или взять адекватные рекомендуемые 1-5-10 секунд, а не 10 раз в секунду.
>Если нет, то можно просто размазать равномерно.Как минимум для англоязычных это единственный возможный вариант
>robots.txt crawl-delayОсталось только посмотреть, где их заполняют, у того же sourcehut.org/robots.txt - 404, то есть вообще ничего нет
>Или взять адекватные рекомендуемые 1-5-10 секунд, а не 10 раз в секунду.Чем определяется данная адекватность? Это насколько сложной должна быть страница, чтобы уже дважды в секунду было неадекватным?
> Чем определяется данная адекватностьОпределяется вероятностью получить бан по ip помноженный на количество доступных прокси. Вот и приходится гадать. Станет ли человек открывать регулярно новые страницы дважды в секунду - нет - значит бот. А так как человек это ожидаемый пользователь, скорость его работы берём за эталон. Если человек настолько резвый что успеет превысить скользящий rate-limit, что вряд ли, то увидит плашку http 429 на пару минут. Яндекс/Гугл вон свою капчу показывает, тем кто слишком часто делает сложные запросы.
> А где это прописывается, чтобы бот мог узнать максимальную частоту запросов?Уровень экспертизы...
Кексперд видимо сам ни разу не смотрел в robots.txt. У того же sourcehut.org/robots.txt - 404. www.opennet.ru/robots.txt - тоже никаких намёков
> Кексперд видимо сам ни разу не смотрел в robots.txt. У того же
> sourcehut.org/robots.txt - 404. www.opennet.ru/robots.txt - тоже никаких намёковКакое отношение это имеет к твоему незнанию "где прописывается"?
Очевидно что ни у опеннета ни у Sh нет никаких специфических мест которые нельзя показывать роботам. (а регекспы в этом файле не обрабатываются)
Но речь об обычных роботах, которые и так стараются не создавать проблем.А необычные все равно не собираются этот файл проверять.
> www.opennet.ru/robots.txt - тоже никаких намёковКуда-то не туда вы смотрите, robots.txt на opennet с испокон веков
https://web.archive.org/web/*/https://www.opennet.me/robots.txt
Saved 67,666 times between September 18, 1999 and March 12, 2025.$ curl https://www.opennet.me/robots.txt
User-Agent: *
Disallow: /search.shtml
Disallow: /cgi-bin/opennet/htsearch
Disallow: /cgi-bin/opennet/bookmark.cgi
Disallow: /cgi-bin/openforum/bv.cgi
Disallow: /cgi-bin/openforum/arted.cgi
Disallow: /cgi-bin/openforum/ch_cat.cgi
Disallow: /cgi-bin/opennet/jnews.cgi
Disallow: /cgi-bin/opennet/tips_search.cgi
Disallow: /cgi-bin/opennet/key_search.cgi
Disallow: /docs/search.shtml# User-agent: Mediapartners-Google
# Disallow:Host: www.opennet.ru
пару часов назад было 404. Похоже, писатель автоцензурилки по произвольным сочетаниям букв немного увлекся и продолбал его. Сейчас прочитал и починил.
Из кодов возврата кроме 200 и 301 для robots.txt в логах за вчерашний и сегодняшний день только это
217.66.*.* - - [21/Mar/2025:12:02:49 +0500] GET /opennews/opennews_full.rss/robots.txt HTTP/1.1 "404" 3804 "-" "Mozilla/5.0 (Windows NT 6.2; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) QtWebEngine/6.7.3 Chrome/118.0.5993.220 Safari/537.36 RSS Guard/4.8.1 RSS Guard/4.8.1" "www.opennet.ru"
83.40.*.* - - [22/Mar/2025:04:00:12 +0500] GET /articles/robots.txt HTTP/1.1 "404" 9027 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" "opennet.ru"
83.40.*.** - - [22/Mar/2025:04:08:30 +0500] GET /articles/robots.txt HTTP/1.1 "404" 9027 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" "opennet.ru"
76.185.*.* - - [21/Mar/2025:06:31:30 +0500] GET /robots.txt HTTP/1.1 "304" 0 "
-" "Mozilla/5.0 (X11; Linux x86_64; rv:136.0) Gecko/20100101 Firefox/136.0" "www
.opennet.ru"
83.40.*.* - - [22/Mar/2025:05:20:38 +0500] GET /robots.txt HTTP/1.1 "302" 222 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" "opennet.ru"Первые три запросы по левым файловым путям, 76.185.*.* контент не изменился после If-Modified-Since, а 83.40.*.* перенаправлеие заблокированного бота.
Из других кодов ошибок встречаются только 301, которые выводятся для перенаправления на HTTPS при обращении по HTTP.Как вариант, может опечатались и вместо robots.txt ввели robot.txt, файл статичный пропасть ему некуда.
По поводу хитрых ИИ-ботов, то с ними основная проблема в том, что их невозможно блокировать через rate limit. Я вначале думал, что это DDoS, за пару часов прилетели запросы со 120 _тысяч_ IP из китайских подсетей. С одого IP только по 1-3 запроса, не больше. При этом они целенаравленно индексировали очень редко запрашиваемы страницы (перебирали по одному сообщения форума в режиме https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi?az=s...). User Agent был типового нового Chrome.
Но они правильно не вставляли Referer, к чему и удалось прицепиться для блокировки.
ну как бы картинка в вебархиве - как бы намекает нам что что-то неладно.
Может, конечно, неладно с самим архивом.А, кстати, а может вебархив теперь - "заблокированный бот"? Потому что я - таки да.
(не с этого адреса, разумеется, иначе бы и написать ничего не мог)
> ну как бы картинка в вебархиве - как бы намекает нам что что-то неладно.
> Может, конечно, неладно с самим архивом.Глянул в статистике archive.org запросы /robots.txt на некотрых крупных сайтах - картина та же, в марте только в отдельные дни загрузки. По индексным страницам такого провала нет, даже наоборот чаще стал индексировать.
> А, кстати, а может вебархив теперь - "заблокированный бот"? Потому что я - таки да.
В форум не даёт отправлять или вообще на сайт не пускает? В форум автоблокирует на три дня, но я для вашего ника не замечал подобных блокировок в отчётах.
Если на сайт не пускает - что-то явно не так, там очень сильно нужно постараться, чтобы под такую блокировку влететь - нужно чтобы десятки тысяч запросов за небольшой промежуток времени были отправлены и LA на серевере оказался выше определённого порога.
> В форум не даёт отправлять или вообще на сайт не пускает?В форум, выводит очередную бодягу про отсутствие рефереров и чегототам.
У того хоста динамический нат, который на каждый запрос выдает новый адрес, причем из разных блоков даже, что раньше периодически приводило к проблемам с капчей, а теперь сразу выкидывает табличку что ты бот и иди лесом.
Выдаёт "ОШИБКА ПУБЛИКАЦИИ (сработала защита от попыток осуществления нештатных операций с форумом)" и дальше советы про Referer? Или просто Forbidden?Как давно это было? По идее последние месяцы из-за борьбы с индексирующими ботами до "ОШИБКА ПУБЛИКАЦИИ" при запросе без Referer вообще вообще доходить не должно, так как будет выдавать Forbidden ещё при запросе формы заполнения сообщения, не доходя до обаботки отправленной информации. Но я несколько раз отключал такое поведение, потом возвращал, когда боты опять навиливались.
Посмотрел по логу, в феврале было несколько попыток отправок без Referer с Firefox. Почему Firefox в этом случае не передаёт Referer не понятно. Он может это делать при попытке отправки формы, открытой по HTTPS, на обработчик, используя HTTP, или если выставлен network.http.sendRefererHeader=0 или когда какое-то особо анонимизирующее дополнеие стоит.
> перебирали по одному сообщения форумаДаже боюсь представить, чему может научиться ИИ, читая сообщения на Опеннете. Мало того, что он сразу станет самоуверенным экспертом во всех вопросах, так ещё и, не приведи, подхватит вирус человеконенавистничества. Возможно, мы станем не просто свидетелями Конца Человечества, но ещё и немного сооучастниками.
> and March 12, 2025.видимо, где-то тут он и отвалился. Там занятное падение числа запросов - то каждый день по три раза, а тут два раза в месяц. В прошлый раз такое было в октябре, все остальные месяцы каждый день и не по разу. Видимо, просто и не отдали.
Я тоже поудивлялся, чего это совсем никакого нет, но, собственно, глядя в содержимое, не особо и был нужен, прям скажем. гугль туда вряд ли и полезет.
> парсить две независмые группыЗабыл напомнить ещё проблема в том что если один бот ходит в несколько потоков на сайт. Сейчас большинство сайтов http/2 и значит отдают ресурсы страницы в том же соединении не открывая новых. Значит бот делая несколько потоков увеличивает нагрузку, открывая несколько отдельных соединений. Так же если краулить разные сайты, то нужно поднимать свой DNS потому что можно просто задудосить публичный DNS. Но разработчики ИИ-ботов обычно ничего это не знают. Поэтому действительно проще и дешевле прийти с мешком денег как OpenAI к stackoverflow и просто купить доступ к базе, чем разрабатывать свои кривые краулеры.
Обо всех таких рекомендациях можно прочитать в книге Introduction to Information Retrieval. Но стартеперы книжек не читают, побыстрее в продакшн, а то инвесторы уже деньги спрашивают.
вот кстати о деньгах - очередная язва на теле нашей поглупевшей цивилизации.За последние десять лет - ноль, ровно ноль успешных альтернатив гуглю (бинг на все деньги мс и яндекс-шпион на немного денег от фсб не в счет, это внеэкономические)
- причем все неудачники плачут что просто дешевле купить у гугля поиск (тут же перепродав ему пользователей) чем поддерживать свой индекс всего интернета. А ИИ -стартшмякеры похоже денег вообще не считают.
Bing вполне пристоен.
> Bing вполне пристоен.он внеэкономический - "у нас есть свой поиск дома!"
А все попытки сделать коммерческую альтернативу - умерли не родившись. Причины очевидны, но непонятно когда ж теперь сдохнет это ИИ, учитывая что им хранение ненужного обходится еще и значительно дороже.
Должны ж горе-инвесторы когда-то и спросить за свои бабки?!
> обратил. Так значит не работает файрвол. Вон пишут же что банишь
> по ip, так они на другие подсети переходят.У яндекса научились. В свое время, когда я растерял там все контакты людей, имевших право думать своей головой, кто уехал, кто умер - оно в очередной раз охренело.
Обычные сайты это не сильно затронуло, но у нас были необычные, и нам прилетело по полной. Э... кто не понимает - например, народру (почему не ложился народ? А потому что это был внутренний сайт яндекса и его они сканили не через веб вообще. Да, их бот так может.)
Техподдержка делала круглые глазыньки и вид что вообще не понимает о чем речь.Что ж ... давайте забаним их блоки. ОГО! Нихреновый за пару дней вырос списочек (когда эта хрень не может пробиться - она так просто не сдается, поднимает новые и новые зомбонеты, по всему миру, до этого тихо спавшие).
Что ж... random drop probability 93%Все довольны - яндекс перестал создавать нам сумасшедшую нагрузку, хомякопейджи продолжают индексироваться, громадный кластер т-по висит (потому что drop а не reject) на хэндшейках, одаренной молоди тогда еще не израильского предпринимателя казахского происхождения совершенно похрен, электричество и серверы в стойках для них бесплатные и в любом количестве. Пару лет, до моего ухода, так и работало, яндекс у себя ничего не исправил.
> Да robots.txt рекомендации и плохо что их не делают стандартами.
на стандарты эти "Мне ННННАДА!" точно так же забьют. Они понимают только палкой по хребту.
>Что ж ... давайте забаним их блокиУ них useragent постоянный? Post запросы шлют или только get?
хммм... вот этого не знаю. В свое время э.. ну неважно в общем, кто - дал яндексу (да, тогда еще нас слушали) "полезный" как ему показалось совет - если на странице есть форма, состоящая ровно из одной submit - попробовать ее "нажать", потому что это может быть "согласитесь с правилами сайта", "skip animation", какой-нибудь приветственный диалог или еще какая подобная ботва."Но потом произошел неприятный инцидент и хищников пришлось срочно убрать"(c)анекдот про тигров в НИИ. Можешь сам догадаться, где эта хрень нашла такую форму и что это было (а ходила-то она из доверенной сети, где авторизации не было).
Но, поскольку ИИ-боты не яндексы - и плевать хотели на любой нанесенный ими ущерб - не исключаю, что если такой совет им еще и не дали, то скоро какой-нибудь особо одаренный таки додумается.
>хммм... вот этого не знаюТак с этого и надо было начинать. Различать по юзерагенту куда проще, чем по ip адресам. Хотя непонятно, почему вы не заблочили по адресам из asn.
>Можешь сам догадаться, где эта хрень нашла такую форму и что это было (а ходила-то она из доверенной сети, где авторизации не было).Полагаю, что это была кнопка удаления
> Так с этого и надо было начинать.А, ты про яндекс? Я-то думал - про ботов современных. Этих заблочишь по агенту - поменяют агент, все ж во имя великой цели.
Различать по агентам было незачем - их в netstat было отлично видно, дальше можно не ходить.
> Хотя непонятно, почему вы не заблочили по адресам из asn.
потому что мы не собирались блочить яндекс, мы собирались что-то сделать с тем что он создает неприемлемую нагрузку на наши серверы.
А вот реакция этих долбанавтов на сотни тыщ висящих коннектов наращиванием долбежки - "решил проблему, пошел кофе пить" очень показательная. Упорству (или уп0р0тости) тоже можно удивиться.
> Да robots.txt рекомендации и плохо что их не делают стандартамиПридумаешь стандарт и как заставить его соблюдать — приходи. Заодно придумай пока будешь ходить непротиворечивое определение паразитной нагрузки. Для пользователя ИИ-агента как раз мясные пользователи паразитная нагрузка, из-за которой нужно парсить HTML.
Наглядный пример нежизнеспособности инфраструктуры этого вашего Virgin OpenSource по сравнению с Chad корпорациями.
Корпорашки как и чады только пальцы крючат да брюльками брякают, на деле там унылее чем у супер верженов
>можно отметить, ловушку для ИИ-ботов AI Labyrinth, представленную вчера компанией CloudflareCloudflare пишет в блоге, что AI Labyrinth доступен на free тарифе, а по факту оно не включается и написано - Your current bot protection on the Free plan (Bot Fight Mode) only detects and challenges easy-to-detect bots from popular cloud providers.
Проблему можно даже решить без прибегания к услугам CloudFlare и прочих анти-DDOS компаний.
Можно через fail2ban и аналогичными инструментами, отсеивать агрессивных клиентов, агрессивность определяется по логам веб-сервера, с помощью regex правил. Агрессивным маньякам можно выдавать текст, к примеру: "Успагойся, подожжи 5 минут, чувак. Если не хочешь ждать, закинь 0,00002 BTC на такой-то кошелёк". Если не угомонится банить по IP временно.
> заставка, которая у некоторых пользователей приводит к минутной задержке загрузки страниц. За два с половиной часа тестирования только 3% запросов прошили проверкуПеревожу. 3% посетителей ждали минуту, чтобы открыть сайт гнома. Тех, кто просто решил что сайт написан криворукими вебокодерами, как и сам гном, и поэтому не работает, просто назначили ботами.
> Перевожу. 3% посетителей ждали минуту, чтобы открыть сайт гнома. Тех, кто просто
> решил что сайт написан криворукими вебокодерами, как и сам гном, и
> поэтому не работает, просто назначили ботами.ну, будь это какой-то другой сайт - так бы оно и было. Но насчет гома ты по-моему все же неправ. КТО, кроме роботов т-пов@тых вообще ходит на САЙТ ГНОМА?! "Полезных ископаемых нет. Воды нет. Растительности нет."
Скорее всего те 3% тоже были ботами. Просто с длинным таймаутом.
> КТО, кроме роботов т-пов@тых вообще ходит на САЙТ ГНОМА?! "Полезных ископаемых нет. Воды нет. Растительности нет."Зайдите и посмотрите, что там. Например, GIMP, GLib.
ЗАЧЕМ мне на них - смотреть?!
Чтобы увидеть
Планктону непанять
Как неожиданно... "И кто это сделал?" (с)
"Для снижения запросов к ресурсоёмким обработчикам в SourceHut были внедрены ловушки на базе инструментария Nepenthes, генерирующего в ответ на запросы ботов случайный контент с зацикленными на ловушку ссылками" Ещё бы подумать как майнерам отдавать умное электричество, чтобы от повышенной нагрузки у них например что-то не так работало и замедляло майнинг. Может силу тока понижать или ещё как чтобы не выглодано было использовать майнинг на повышенных нагрузках. Всёравно на майнинге много можно заработать только если не платить за электричество, а если платить за электричество большая часть прибыли от майнинга уходит на оплату электричества, прибыль существенно падает. После покупки майнинг оборудования сколько то лет надо работать в минус уменьшая затраты оплачивая купленное оборудование. Что и пытаются делать и делает какая-то часть майнеров не платить за электричестао.
Я бы добычу кртптоволют в виде больших контор запретил и не давал развиваться этому направлению.
> Я бы добычу кртптоволют в виде больших контор запретил и не давал
> развиваться этому направлению.Товарищ Ким (третий по величине, а возможно и первый если выкинуть коллективные, криптовладелец) смотрит на тебя неодобрительно. Не хочешь ли ты экскурсию за 57 тыщ приобрести?
"не выглодано было" Так: не выгодно было
Значит как светофоры от автобусов отличать это нормальная капча. Парадокс в том: обучая при этом нейросеть которая учиться отличать светофоры от автобусов. То есть человек проходя капчу, обучает нейросеть проходить капчу. А как создавать Honeypot для ботов, которые нагружают сервер и мешают нормальным людям так это не хорошо.
Вспоминаются строки Достоевского , из его новеллы "Майнер":
Накупил джифлрсоф начал майнить жене на шубу. Однажды утром проснулся - замайнилось!! Пошел покупать шубу, прихожу домой , а дома никого. Только записка на столе "я слишком долго ждала..". Теперь эта шуба на полу вместо ковра лежит.
А что было в оригинале?
А,.. вот в чём дело, буквально вчера или позавчера пытался зайти на gitlab гнома, и сильно удивлялся почему не пускает
Ну понятно же, что ни одна инфраструктура не выдержит наплыва стартапов от ИИ.
> Ну понятно же, что ни одна инфраструктура не выдержит наплыва стартапов от
> ИИ.А стартапам от ЫЫ обязательно вести себя именно как последние м-ки?
Ну, так, поняли эти селфхостеры, к каким проблемам селфхостинг ведёт, или ещё нет?
> Ну, так, поняли эти селфхостеры, к каким проблемам селфхостинг ведёт, или ещё
> нет?облачность - лишь иллюзия, оно всё self-hosted и постоянно падает, у всех облачных провайдеров время от времени DDOS и технические неполадки.
Возьмём, к примеру gitlab.com ("облачный" вариант gitlab), он внезапно тоже self-hosted и они используют GCP, как хостера. И, кстати, частенько бывает, что он тоже лежит.
GitHub.com также self-hosted, хостится в Azure.
И где ты думаешь упомянутые в статье инстансы gitlab хостятся? в тех же самых "облаках" на соседней стойке.
Юзераненты, айпи. Того гляди, скоро и до фингерпринтов дойдут.
> Юзераненты, айпи. Того гляди, скоро и до фингерпринтов дойдут.ИИ подделает фингерпринт даже лучше чем твой настоящий браузер. Поэтому тебя отфильтруют, бот поганый, а он пройдет.
Война ИИ против человечества началась со спама в Интернете.
ИИ это скрепка в microsoft office.
Все перейдут в доверенные VPN как необходимость доверия и защиты от атак ИИ.
> Все перейдут в доверенные VPN как необходимость доверия и защиты от атак
> ИИ.так точно, товарищмаер! Можно мне кредит доверия как-то до конца месяца поднять на два балла? А то я налог на доверие заплатить не могу - налоговый сайт не пускает.
>Проблемы возникли у платформы совместной разработки SourceHut, развиваемой Дрю ДеВолтом (Drew DeVault), автором пользовательского окружения Sway. >Дрю сетует на то, что в очередной раз вместо того, чтобы заниматься развитием платформыЛицемерьненько, он эту платформу совсем забросил со своим ADHD, прыгает с одной игрушки (вроде hare) на другую.
Столмановцы, зачем вы вообще сопротивляетесь: придут роботы обучатся на вашем коде и будут писать утилиты для корпоратов, наложив на ваш opensource трехслойный denuvo чтоб никто не догадался . Смысла совместно что-то писать выкладывать в общий доступ , учить корпоратов - нет уже вовсе.
а кто им запретит ТОЖЕ писать роботом утилиты для фанатов шва60дки?Проблема только в том что пока что эти роботы такую хрень пишут, что пользы от нее один вред.
> Смысла совместно что-то писать выкладывать в общий доступ , учить корпоратов - нет уже
> вовсе.смысл выкладывания написанного в общий доступ - вовсе не в том чтоб учить корпоратов, и никогда не был.
Смысл всегда был в том, чтобы другие люди делали за тебя твою работу - если твоя работа вообще хоть чего-то стоит. Он никуда не денется и дальше.
А в чем нагрузка, совершил гит клон этот робот и готово. Любой CI этих клонов в докер хреначит десятками
Проблема в том, что робот не делает git clone. Он просто хреначит условный Gitlab / Gitea HTTP-запросами всюду, куда может дотянуться.
То, о чем тут сообщили, называется ddos, и неважно, какими средствами он организован. Источник при этом известен с точностью до ф.и.о. заказчика. В чем проблема-то прикрыть злодеев? Реально прикрыть.
> То, о чем тут сообщили, называется ddos, и неважно, какими средствами он
> организован. Источник при этом известен с точностью до ф.и.о. заказчика. В
> чем проблема-то прикрыть злодеев? Реально прикрыть.И вот чо ты мне сделаешь, я вообще в Бей-Жине?!
(за мат извени)
В Бей-Жине вполне приличное законодательство по защите от киберпреступлений. И оно вполне работает, если его прочитать и подать в суд.
Просто понятно что, для этого надо нанять китайского юриста и составить исковое заявление на китайском.
Удачи! :) Ты всегда там лаовэй ==> виновен :)
И ты сам там лао-мао-цзы и тебя сольют по первой же твоей неудобности.
Как бывший инсайдер, занимавшийся сопровождением индексирующего бота 10 лет назад, заявляю, что игнорирование robots.txt и маскировка под браузеры - суровая необходимость.Когда мы играли по правилам, (т.е. использовали свой user-agent, читали robots.txt и не лезли куда запрещено) мы периодически сталкивались с автоматизированными жалобами от всяких систем защиты от ботов. Это приводило к тому, что наши дроплеты на DigitalOcean по несколько раз в день принудительно останавливались сотрудниками DigitalOcean.
Экспериментально было выяснено, что на некоторых сайтах такая жалоба, идентичная той, которую получали сотрудники DigitalOcean, генерируется и направляется на email из whois-записи через несколько секунд (т.е. явно астоматически) после любого запроса к robots.txt, даже если это единственный запрос к этому домену с тестовой машины. При этом ходить по любым другим страницам с браузерным user-agent'ом дает.
Поэтому мы приняли такое неэтичное решение мимикрировать под браузеры и игнорировать robots.txt. Возможно, более правильным решением был бы переезд на абузоустойчивый хостинг. В защиту DigitalOcean: там прекрасно понимали абсурдность происходящего, но были вынуждены придерживаться процедуры реагирования на жалобы.
> В защиту DigitalOcean: там прекрасно понимали абсурдность происходящего,
> но были вынуждены придерживаться процедуры реагирования на жалобы.процедура дана им Г-дом нашим и обсуждаться даже не должна?
В защиту низовых сотрудников разьве что. Руководящие ими индусы никакой защиты не заслуживают, и вероятно таки да - стоило поискать хостинг на три копейки дороже, еще не раз бы пригодилось.
(я в свое время не просто молча удалял такие автоабьюзы, а навечно перенаправлял From в автопомойку, автоматически отвечавшую что автоматические абьюзы здесь только автоудаляются и используйте другой адрес если вы человек)
Части проблем можно было бы избежать, если бы оно всё не было настолько вэбоцентристским. Долой HTML–странички! Долой сайты! Долой JavaScript!
Отлично! Но я всё же жду большего. Жду, когда ИИ начнёт хоронить экономику. По-настоящему.
Проблема не в том что все ринулись "читать" а в том что сервера у этих мега проектов уровня третьего пня.
Не хотят чтобы читали? Сделали бы вход только по паспорту как это сейчас модно. Но не сделали.
а я просто блочу доступ если кто-то пытается смотреть исходники зависимостей через веб или текст лицензии. это 100% значит, что приехал индексирующий бот.
Просто блоками /24 (v4) и /48 (v6) блокировать на месяц, и быстро перестанут "использовать" - ни один провайдер не согласится.