URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 111428
[ Назад ]

Исходное сообщение
"Выпуск платформы для распределённой обработки данных Apache ..."

Отправлено opennews , 07-Июн-17 13:40 
После двух лет разработки организация Apache Software Foundation опубликовала (https://blogs.apache.org/foundation/entry/the-apache-softwar... релиз Apache Hadoop 2.8 (http://hadoop.apache.org), свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce (http://ru.wikipedia.org/wiki/MapReduce), при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и  содержать эксабайты данных.


В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции.  Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала (https://www.opennet.me/opennews/art.shtml?num=26398) Hadoop и другим проектам Apache  право использования технологий, на которые распространяются патенты, связанные с методом MapReduce.


Основные изменения в Apache Hadoop 2.8:


-  Проведена работа по увеличению средств защиты, в том числе добавлены средства для блокирования атак  XFS (Cross-Frame Scripting, загрузка web-интерфейса в iframe) и CSRF (Cross Site Request Forgery, подстановка скрытых обращений к REST API);
-  Для улучшения интеграции с другими приложениями представлен отдельный jar-архив  hadoop-hdfs-client с компонентами клиента HDFS, который в отличие от архива hadoop-hdfs не содержит кода, связанного с обеспечением работы сервера, и требует меньше зависимостей;


-  Добавлена поддержка сервиса Microsoft Azure Data Lake в качестве источника и приёмника данных;

-  S3A, клиент для работы с данными, хранимыми в Amazon S3, существенно улучшен в плане масштабирования, производительности и безопасности. Судя по тестам  Apache Hive TCP-DS, при работе с данными в хранилище S3 производительность Apache Hadoop теперь выше, чем у проприетарного коннектора Amazon EMR;

-  Серия улучшений, связанных с WebHDFS, включая интегрированный фильтр для защиты от атак  CSRF, поддержку OAuth2 и управление разрешением/запретом снапшотов;


-  Добавлена возможность реконфигурации ресурсов YARN NodeManager через CLI-интерфейс RM Admin, что позволяет использовать более гибкую модель распределения ресурсов в кластерах, построенных поверх облачных систем.

URL: https://blogs.apache.org/foundation/entry/the-apache-softwar...
Новость: http://www.opennet.me/opennews/art.shtml?num=46665


Содержание

Сообщения в этом обсуждении
"Выпуск платформы для распределённой обработки данных Apache ..."
Отправлено Аноним , 07-Июн-17 13:40 
>патенты, связанные с методом MapReduce.

Ничего себе, только узнал, а это какие?


"Выпуск платформы для распределённой обработки данных Apache ..."
Отправлено Аноним , 07-Июн-17 14:16 
https://arstechnica.com/information-technology/2010/01/googl.../
https://www.google.com/patents/opnpledge/patents/

US 2012/0254193     Processing data in a MapReduce framework
US 2012/0278323     Joining tables in a MapReduce procedure
US 7590620     System and method for analyzing data records
US 7650331     System and method for efficient large-scale data processing
US 7756919     Large-scale data processing in a distributed and parallel processing environment


"Выпуск платформы для распределённой обработки данных Apache ..."
Отправлено Аноним , 07-Июн-17 15:58 
А когда это, наконец, можно будет собрать из исходников?

См. https://wiki.debian.org/Hadoop

А также https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html


"Выпуск платформы для распределённой обработки данных Apache ..."
Отправлено Аноним , 07-Июн-17 16:02 
https://m.slashdot.org/story/324121

"Выпуск платформы для распределённой обработки данных Apache ..."
Отправлено Борщдрайвен бигдата , 07-Июн-17 20:02 
Оно уже несколько лет собирается в два с половиной шага: установка зависимостей, mvn package и походом за чай, пока собирается. Для особых ценителей есть BUILDING.txt

На каких слоупоков рассчитан наброс выше — непонятно.


"Выпуск платформы для распределённой обработки данных Apache ..."
Отправлено Stax , 07-Июн-17 21:17 
Возьмите CDH и не парьте себе и другим мозг. Вы что, собрались в реальном продакшене использовать собственные сборки и тестировать/обслуживать обновления?

"Выпуск платформы для распределённой обработки данных Apache ..."
Отправлено Борщдрайвен бигдата , 08-Июн-17 13:33 
Вообще, можно. Иногда приходится мейнтейнить свои патчи. Удовольствие ниже среднего, но порой такой подход — единственно приемлемый.

"Выпуск платформы для распределённой обработки данных Apache ..."
Отправлено Борщдрайвен бигдата , 07-Июн-17 20:11 
Неплохо, неплохо.

Но вот обновляться слегка рано. Во-первых, не всё _совсем_ гладко после миграции на новую схему раскладки блоков в DataNode (есть репорты, что при очень кривых руках можно поломать вообще всё и сразу), во-вторых, не решены пару проблем с HA, в-третьих, чуть-чуть сломали ACL и FairScheduler в YARN'е.