The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Релиз платформы для распределённой обработки данных Apache H..."
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Релиз платформы для распределённой обработки данных Apache H..."  +/
Сообщение от opennews (ok), 28-Янв-19, 11:47 
Организация Apache Software Foundation опубликовала (https://blogs.apache.org/foundation/entry/the-apache-softwar...) релиз Apache Hadoop 3.2 (http://hadoop.apache.org), свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce (http://ru.wikipedia.org/wiki/MapReduce), при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и  содержать эксабайты данных.


В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции.  Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала (https://www.opennet.me/opennews/art.shtml?num=26398) Hadoop и другим проектам Apache  право использования технологий, на которые распространяются патенты, связанные с методом MapReduce.


Hadoop занимает первое место среди репозиториев Apache по числу вносимых изменений и пятое место по размеру кодовой базы (около 4 млн строк кода). Из крупных внедрений Hadoop отмечаются хранилища Netflix (сохраняется более 500 миллиардов событий в день), Twitter (кластер из 10 тысяч узлов в режиме реального времени хранит более зетабайта данных и обрабатывает более 5 миллиардов сеансов в день), Facebook (кластер из  4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).


Основные изменения в Apache Hadoop 3.2:

-  Добавлен коннектор для файловой системы ABFS, поддерживающий  хранилища Azure Datalake Gen2;
-  Расширены возможности коннектора S3A, в котором обеспечена корректная обработка урезанных конфигураций AWS S3 и DynamoDB IO;
-  В  YARN (Yet Another Resource Negotiator) добавлена поддержка атрибутов узлов, позволяющая прикреплять разные метки к узлам и размещать контейнеры с учётом данных меток;

-  Реализован SPS (Storage Policy Satisfier), позволяющий создавать расширения для HDFS (Hadoop Distributed File System), перемещающие блоки между различными типами хранилищ на основе политик хранения, заданных для файлов и каталогов;
-  Представлен инструмент Hadoop Submarine для упрощения разработки, тренировки и развёртывания моделей глубинного машинного обучения на базе фреймворка TensorFlow в одном кластере Hadoop YARN;

-  Добавлен HDFS-клиент на C++ с поддержкой асинхронного ввода/вывода
для HDFS;

-  Обеспечена возможность обновления начинки контейнеров через CLI-интерфейс или API YARN Native Service  без остановки работы связанных с ними длительно работающих сервисов.

Дополнительно можно отметить выявление уязвимости (https://www.openwall.com/lists/oss-security/2019/01/24/3) в коде авторизации HDFS, позволяющей узнать значения расширенных атрибутов через выполнение  операции listXAttrs. Проблема вызвана тем, что при проверке полномочий учитывался только доступ к операциям просмотра каталогов на уровне файловых путей, но не выполнялась проверка прав на чтение содержимого.


Кроме того, приводятся сведения об обнаружении (https://www.securonix.com/securonix-threat-research-detectin.../) вредоносного ПО, поражающего незащищённые хранилища на базе Hadoop. Для внедрения вредоносного ПО в сети отыскиваются необновлённые серверы, содержащие неисправленные известные уязвимости в Hadoop YARN (https://www.rapid7.com/db/modules/exploit/linux/http/hadoop_...), а также в Redis (https://packetstormsecurity.com/files/134200/Redis-Remote-Co...) и ActiveMQ (https://nvd.nist.gov/vuln/detail/CVE-2016-3088), позволяющие выполнить код в системе.  В случае успешной эксплуатации уязвимостей на сервере в большинстве случаев запускается (https://www.digitalocean.com/community/questions/what-is-thi...) код для майнинга криптовалют, организации слежки в локальной сети или кражи корпоративных закрытых данных. В отдельных случаях зафиксировано применение вредоносного ПО Xbash, которое поддерживает сканирование сети для выявления новых уязвимых жертв, выполняет чистку содержимого БД и  требует выкуп за восстановление данных (указывается, что данные зашифрованы, но на деле они просто удаляются).


URL: https://blogs.apache.org/foundation/entry/the-apache-softwar...
Новость: https://www.opennet.me/opennews/art.shtml?num=50038

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


2. "Релиз платформы для распределённой обработки данных Apache H..."  –1 +/
Сообщение от лютый жабист__ (?), 28-Янв-19, 12:42 
Мда, а местные эксперты недавно уверяли, что вся бигдата с жабки уже давно ушла.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

4. "Релиз платформы для распределённой обработки данных Apache H..."  +6 +/
Сообщение от Аноним (4), 28-Янв-19, 12:48 
Бигдата ушла, а легаси остался.
Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

9. "Релиз платформы для распределённой обработки данных Apache H..."  +/
Сообщение от Аноним (9), 28-Янв-19, 14:25 
Согласен, это именно легаси. Вы только посмотрите, на какой старой платформе Cloudera базирует свою учебную виртуальную машину для курсов по Hadoop: это CentOS 6. 6, Карл! Там даже нет Java 8, только 1.7 от Oracle. И почему-то другие организации проводят курсы по Hadoop на таком же старье, как будто оно ни на чем другом не работает.

P.S. курсы не проходил, но помогал организовывать.

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

10. "Релиз платформы для распределённой обработки данных Apache H..."  +/
Сообщение от Аноним (4), 28-Янв-19, 14:28 
Зато стабильность.
Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

13. "Релиз платформы для распределённой обработки данных Apache H..."  –1 +/
Сообщение от Лапчатый девляпс бубунтёнок (?), 28-Янв-19, 15:18 
Не, ну когда я в cиcькe арботал, эта проблема была, мы тогда клаудеру безуспешно пытались спрашивать. А сейчас вроде и седьмую чентозь добавили. В предверии выхода 8-й: https://www.cloudera.com/documentation/enterprise/5-7-x/PDF/...
Они не спешат....
Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

14. "Релиз платформы для распределённой обработки данных Apache H..."  +/
Сообщение от Bonch (??), 28-Янв-19, 15:48 
Насколько я знаю, QuickStart VM для новых версий CDH больше не релизят (последняя VM доступна для релиза 2017го года). В новых версиях (CDH6) перешли на java 8, но QuickStart-ов для них больше не будет.
Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

18. "Релиз платформы для распределённой обработки данных Apache H..."  –1 +/
Сообщение от Анонэйм (?), 28-Янв-19, 23:08 
Ну, будучи в универе, у меня был курс с Hadoop, мне было влом держать этот CentOs в виртуальной машине, и я установил Hadoop напрямую в MacOS, проблем с установкой и разработкой замечено не было.
Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

20. "Релиз платформы для распределённой обработки данных Apache H..."  +/
Сообщение от лютый жабист__ (?), 29-Янв-19, 07:58 
>свою учебную виртуальную машину для курсов по Hadoop: это CentOS 6. 6, Карл! Там даже нет Java 8, только 1.7 от Oracle.

Не болтай ерундой.

java-1.8.0-openjdk-1.8.0.171-8.b10.el6_9.x86_64.rpm

Cloudera who?

Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

27. "Релиз платформы для распределённой обработки данных Apache H..."  +/
Сообщение от Аноним (9), 29-Янв-19, 13:07 
Я не про CentOS 6, а про QuickStart VM.
Ответить | Правка | ^ к родителю #20 | Наверх | Cообщить модератору

15. "Релиз платформы для распределённой обработки данных Apache H..."  +1 +/
Сообщение от Киль Комаров (?), 28-Янв-19, 15:52 
А куда ушла Бигдата?
Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

16. "Релиз платформы для распределённой обработки данных Apache H..."  +2 +/
Сообщение от YetAnotherOnanym (ok), 28-Янв-19, 17:42 
В закат же!
Ответить | Правка | ^ к родителю #15 | Наверх | Cообщить модератору

3. "Релиз платформы для распределённой обработки данных Apache H..."  –2 +/
Сообщение от лютый жабист__ (?), 28-Янв-19, 12:46 
<наивный буратина моде он>
Скоро перепишут на плюсах и настанет ой всё!
</наивный буратина моде он>

Из крупных внедрений Hadoop отмечаются хранилища Netflix (сохраняется более 500 миллиардов событий в день), Twitter (кластер из 10 тысяч узлов в режиме реального времени хранит более зетабайта данных и обрабатывает более 5 миллиардов сеансов в день), Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

5. "Релиз платформы для распределённой обработки данных Apache H..."  +6 +/
Сообщение от Аноним (4), 28-Янв-19, 12:50 
А куда им бежать с подводной лодки?
Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

6. "Релиз платформы для распределённой обработки данных Apache H..."  +1 +/
Сообщение от FedeXemail (ok), 28-Янв-19, 12:54 
Ну дык данные нынче -товар. Чем больше ПБ тем дороже, главное покупателей кому оно надо найти. Так шо это не подводная лодка, а воздушный шар.
Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

7. "Релиз платформы для распределённой обработки данных Apache H..."  –4 +/
Сообщение от имя (?), 28-Янв-19, 13:45 
пох, перелогинься
Ответить | Правка | ^ к родителю #6 | Наверх | Cообщить модератору

17. "Релиз платформы для распределённой обработки данных Apache H..."  +/
Сообщение от пох (?), 28-Янв-19, 21:59 
а я тут причем? Я просто молчу в а...е, от того сколько ж они о вас накопали. Что там не котиков нифига 4 петабайта в день, да и не в hadoop'е те котики - по-моему, очевидно.

А у нетфликсы и котиков-то никаких нет...

Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

8. "Релиз платформы для распределённой обработки данных Apache H..."  +/
Сообщение от Аноним (8), 28-Янв-19, 14:03 
Посчитать осталось, сколько лишней электроэнергии уходит впустую на джаву. Пересчитать сколько вреда от этого экологии и заставить Oracle платить компенсацию за вред окружающей среде. Или вычитать из зарплаты как налог у тех кто пишет на Java.
Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

11. "Релиз платформы для распределённой обработки данных Apache H..."  –1 +/
Сообщение от Аноним (4), 28-Янв-19, 14:28 
В корпоративном мире чем больше ты потратил тем ты круче.
Ответить | Правка | ^ к родителю #8 | Наверх | Cообщить модератору

25. "Релиз платформы для распределённой обработки данных Apache H..."  +/
Сообщение от лютый жабист__ (?), 29-Янв-19, 11:26 
>В корпоративном мире чем больше ты потратил тем ты круче.

В корпоративном мире бюджет формируют за год, а то и два. Знаешь ты сколько тебе через 2 года надо ресурсов, не знаешь, никого не ебстит. Поэтому пишешь от балды x4. Половину зарежут на совете директоров, зато оставшихся x2 хватит на жабу и даже на помайнить.

Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

19. "Релиз платформы для распределённой обработки данных Apache H..."  –1 +/
Сообщение от Аноним (19), 29-Янв-19, 00:16 
> Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).

А тут не опечатка - "ежедневно увеличивается на 4 Пб в день"?
Это что, сегодня 4 добавилось, завтра 8, послезавтра 12?

И на какую дату данные?
Ведь по 4 Пб в день (а сейчас уже 300) это через год 1760 петабайт будет.

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

21. "Релиз платформы для распределённой обработки данных Apache H..."  +/
Сообщение от лютый жабист__ (?), 29-Янв-19, 08:01 
Глючишь? "ежедневно увеличивается на 4 Пб в день" означает линейное увеличение на 4 в день. А не какую-то прогрессию.
Ответить | Правка | ^ к родителю #19 | Наверх | Cообщить модератору

22. "Релиз платформы для распределённой обработки данных Apache H..."  –1 +/
Сообщение от erthink (ok), 29-Янв-19, 11:03 
> Глючишь? "ежедневно увеличивается на 4 Пб в день" означает линейное увеличение на 4 в день. А не какую-то прогрессию.

1) "ежедневно увеличивается на 4 Пб в день" = арифметическая прогрессия.
2) 300 + 4*365 = 1760

ява в голове - это диагноз навсегда ;)

Ответить | Правка | ^ к родителю #21 | Наверх | Cообщить модератору

23. "Релиз платформы для распределённой обработки данных Apache H..."  +/
Сообщение от лютый жабист__ (?), 29-Янв-19, 11:22 
>ява в голове - это диагноз навсегда ;)

сишникам лишь бы пюкнуть против жабы и в кусты, пилить могучее ненужно.

300ПБ всего vs 4ПБ прироста это действительно на ошибку в статье похоже, скорее всего в месяц.

Ответить | Правка | ^ к родителю #22 | Наверх | Cообщить модератору

26. "Релиз платформы для распределённой обработки данных Apache H..."  +/
Сообщение от Аноним (26), 29-Янв-19, 11:31 
> 300ПБ всего vs 4ПБ прироста это действительно на ошибку в статье похоже, скорее всего в месяц.

Скорее всего ошибка, но может именно в хадупе в кластере на 4тыс узлов растет какая-то вспомогательная новая, свеженькая база, не основное хранилище.

Ответить | Правка | ^ к родителю #23 | Наверх | Cообщить модератору

24. "Релиз платформы для распределённой обработки данных Apache H..."  +/
Сообщение от Аноним (26), 29-Янв-19, 11:26 
>> Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).
> А тут не опечатка - "ежедневно увеличивается на 4 Пб в день"?
> Это что, сегодня 4 добавилось, завтра 8, послезавтра 12?

Очевидно же из фразы - увеличивается не ежедневная порция добавляемых данных, а сама база данных.

Ответить | Правка | ^ к родителю #19 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру