Релиз платформы для распределённой обработки данных Apache Hadoop 3.3

02.08.2020 10:02 (MSK)

После полутора лет разработки организация Apache Software Foundation опубликовала релиз Apache Hadoop 3.3.0, свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce, при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и содержать эксабайты данных.

В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции. Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce.

Hadoop занимает первое место среди репозиториев Apache по числу вносимых изменений и пятое место по размеру кодовой базы (около 4 млн строк кода). Из крупных внедрений Hadoop отмечаются хранилища Netflix (сохраняется более 500 миллиардов событий в день), Twitter (кластер из 10 тысяч узлов в режиме реального времени хранит более зетабайта данных и обрабатывает более 5 миллиардов сеансов в день), Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).

Основные изменения в Apache Hadoop 3.3:

Добавлена поддержка платформ на основе архитектуры ARM.
Реализация формата Protobuf (Protocol buffers), используемого для сериализации структурированных данных, обновлена до выпуска 3.7.1 в связи с окончанием жизненного цикла ветки protobuf-2.5.0.
Расширены возможности коннектора S3A: добавлена поддержка аутентификации при помощи токенов (Delegation Token), улучшена поддержка кэширования ответов с кодом 404, увеличена производительность S3guard, повышена надёжность работы.
В файловой системе ABFS решены проблемы с автоматическим тюнингом.
Добавлена встроенная поддержка файловой системы Tencent Cloud COS для доступа к объектному хранилищу COS.
Добавлена полная поддержка Java 11.
Стабилизирована реализация HDFS RBF (Router-based Federation). В HDFS Router добавлены средства управления безопасностью.
Добавлен сервис DNS Resolution для определения клиентом серверов через DNS по именам узлов, позволяющий обойтись без перечисления всех хостов в настройках.
Добавлена поддержка планирования запуска оппортунистических контейнеров через централизованный менеджер ресурсов (ResourceManager), в том числе с возможностью распределения контейнеров с учётом нагрузки каждого узла.
Добавлен каталог приложений YARN (Yet Another Resource Negotiator) с возможностью поиска.

исправить +15 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/53476-hadoop

Ключевые слова: hadoop

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (11)

1.1, A.Stahl (ok), 12:12, 02/08/2020 [ответить] [﹢﹢﹢] [ · · · ]	+7 +/–
Пятиминутка древних поговорок: Распределяй и обрабатывай. Хранилище хранилищу резерв. Все данные ношу с собой. Ну и конечно же: у семи админов база без пароля.

1.2, YetAnotherOnanym (ok), 12:26, 02/08/2020 [ответить] [﹢﹢﹢] [ · · · ]	+5 +/–
> хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день Не знал, что возраст Фейсбука - два с половиной месяца.

2.3, Аноним (3), 18:43, 02/08/2020 [^] [^^] [^^^] [ответить]	+/–
А зачем ему хранить больше сырых сообщений? Если надо, можно сделать аггрегаты и хранить только их.

2.4, Сцукенберг (?), 18:48, 02/08/2020 [^] [^^] [^^^] [ответить]

–1 +/–

> Не знал, что возраст Фейсбука - два с половиной месяца.

А дальше назад ты ленту и не крути. А не то!

P.S. нормальные люди, между прочим, и не крутят. Кому нужны котики трехмесячной давности? Вот мы их и...незаметно...того.

3.5, Аноним (5), 19:03, 02/08/2020 [^] [^^] [^^^] [ответить]	–1 +/–
Котики gzip сжимаются до одного котика.

4.6, Аноним (6), 04:39, 03/08/2020 [^] [^^] [^^^] [ответить]	+/–
Котики совсем не сжимаются, тем более gzip. Можете попробовать zpaq, он вам дедуплицирует одинаковых котиков (единственный из архиваторов, который объединяет одинаковые файлы), но процессорное время не бесплатно, а диски то бездонные и стоят 20 баксов за терабайт качественного сторейжа в рознице. По-моему диски категории "олин раз записать и больше не трогать" вроде вдред раза в 2 дешевле были. Но каждые 5 лет диски в 4 раза увеличиваются в размере за те же деньги. Вроде то же самое и с плёнкой, только она впереди и оборудование недоступно обывателю.

4.7, Сцукенберг (?), 09:12, 03/08/2020 [^] [^^] [^^^] [ответить]

+/–

> Котики gzip сжимаются до одного котика.

reduce'ятся же! ;-)

А ты думал, зачем нам hadoop?

4.8, анон (?), 16:43, 03/08/2020 [^] [^^] [^^^] [ответить]	+/–
zfs умеет в dedup на лету. Но это, конечно, не бесплатно.

3.9, онанизмус (?), 01:01, 04/08/2020 [^] [^^] [^^^] [ответить]	+/–
>А дальше назад ты ленту и не крути. А не то! Не рекомендую на новом аккаунте крутить чужие ленты, кстати.

3.10, товарищ майор (?), 11:35, 05/08/2020 [^] [^^] [^^^] [ответить]	+/–
> Кому нужны котики трехмесячной давности? Все котики хранятся не менее 6 месяцев, мы за этим следим.

3.11, товарищ майор (?), 11:36, 05/08/2020 [^] [^^] [^^^] [ответить]	+/–
> Кому нужны котики трехмесячной давности? Вот мы их и...незаметно...того. Все котики хранятся не менее 6 месяцев, мы за этим следим. Даже те котики, которых, как вам кажется, вы удалили.

Добавить комментарий

Текст: