Организация Apache Software Foundation представила (https://blogs.apache.org/foundation/entry/the_apache_softwar... релиз Apache Hadoop 2 (http://hadoop.apache.org), свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce (http://ru.wikipedia.org/wiki/MapReduce), при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и содержать эксабайты данных (общий объём цифровой информации на Земле оценивается в 161 эксабайт).В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции. Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала (http://www.opennet.me/opennews/art.shtml?num=26398) Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce.
Hadoop-кластеры, обрабатывающие десятки петабайт информации, развёрнуты в таких компаниях, как Yahoo, Facebook, Amazon, AOL, Apple, eBay, HP, LinkedIn, Netflix, Rackspace и Twitter. Рекордсменом является Hadoop-кластер Yahoo, состоящий из 35 тысяч узлов. Hadoop лежит в основе платформы Oracle Big Data (http://www.opennet.me/opennews/art.shtml?num=31955) и некоторых продуктов компаний Microsoft, IBM, Teradata и SAP. Hadoop является одним из ключевых звеньев суперкомпьютера IBM Watson, который выиграл (http://www.opennet.me/opennews/art.shtml?num=29596) сражение с лучшими игроками телевизионной игры-викторины "Jeopardy!".
Особенности выпуска Apache Hadoop 2:- Реализация YARN (MapReduce 2.0), позволяющего одновременно запускать различные приложения для обработки данных (например, Apache Hadoop MapReduce и Apache Storm) и сервисы (например, Apache HBase). Основная идея YARN заключается в выделении в отдельные демоны частей, связанных с отслеживанием выполнения заданий (JobTracker), управленем ресурсами и планированием работ. Ключевые компоненты YARN: ResourceManager (RM, управляет распределением всех ресурсов системы для всех приложений), NodeManager (координирует работу каждого узла) и ApplicationMaster (AM, запускается для каждого приложения и обеспечивает выполнение заданий с использованием полученных от ResourceManager ресурсов).
<center><a href="http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yar... src="http://www.opennet.me/opennews/pics_base/0_1381942193.gif" style="border-style: solid; border-color: #e9ead6; border-width: 15px;" title="" border=0></a></center>
- Обеспечение высокой доступности для HDFS;
- Средства для объединения разных экземпляров HDFS (Federation HDFS);
- Возможность создания снапшотов данных в HDFS;
- Поддержка доступа к HDFS через NFSv3;
- Обеспечение бинарной совместимости с существующими приложениями MapReduce, созданными для Apache Hadoop 1.x;
- Поддержка платформы Microsoft Windows.
URL: https://blogs.apache.org/foundation/entry/the_apache_softwar...
Новость: http://www.opennet.me/opennews/art.shtml?num=38184
МОжет и в России когда-нибудь будут компании, которые используют Hadoop . Не всё же время нефть качать
Они есть.
Надо сделать DCM4CHEE или аналогичный PACS на Hadoop, а не на связке MySQL/DICOMDIR (другие PACS используют практически ту же медленную архитектуру). Иначе не сделать быстрый PACS.
Вроде Mail.ru использует Hadoop для поиска: http://habrahabr.ru/company/mailru/blog/167297/
> МОжет и в России когда-нибудь будут компании, которые используют Hadoop . Не
> всё же время нефть качатьЗнаю несколько довольно крупных компаний. у которых на нем развернуто решение ряда внутренних задач ... беда в том, что компании эти не афишируют этого факта и узнать об этом можно только "за рюмкой чая" с коллегами ...
его используют многие компании для задач data mining'а. В частности все известные интернет проекты и рекламщики. Некоторые упорыши додумались даже на нём поиск делать
Почему Википедию не реализуют на Hadoop? Быстрее бы работала на порядки.
> Почему Википедию не реализуют на Hadoop? Быстрее бы работала на порядки.И какие распределенные вычисления нужно делать википедии?
Hadoop ведь можно использовать как поисково и распределённую систему, позволяющую быстро выдавать результат из большого количества серверов. Это как раз и нужно в Википедии - сейчас Википедия хранит данные в MySQL. Конечно количество запросов к Википедии немаленькое, но иногда она сильно тормозит. Map/Reduce мне кажется помогла бы убыстрить Википедию
> Конечно количество
> запросов к Википедии немаленькое, но иногда она сильно тормозит. Map/Reduce мне
> кажется помогла бы убыстрить ВикипедиюПростите, а как MR поможет ускорить Wikipedia? MR позволяет довольно быстро анализировать/агрегировать данные, но у Wikipedia мало именно агрегаций. Основная их нагрузка это чтение и запись wiki-страничек. В данном случае им нужна распределенность и отказоустойчивость. По сути любая распределенная система хранения вида multi-master подойдет.
PS скорее всего HBase, что поверх Hadoop тоже подойдет для Wikipedia. Только будут ли они переделывать движок системы...
может таки hbase поверх hdfs ? ;-)p.s. ох и много же времени им понадобилось чтобы дойти до "Поддержка доступа к HDFS через NFSv3;"
а то вебдав да еще какие-то костыли только были.
> p.s. ох и много же времени им понадобилось чтобы дойти до "Поддержка доступа к HDFS через NFSv3;"Самому Hadoop это не сильно и нужно. Точнее не нужно совсем. Стало быть понадобилось кому то из потребителей. Когда сделали и оттестили, тогда и вошло в релиз.
PS не понимаю нужность HDFS через NFS. не будете же вы располагать обычные данные (файловые шары / файлы виртуалок / etc) на HDFS. загрузить данные для RM можно и через шелл. а вероятнее вообще через сборщика данных ;)
>> p.s. ох и много же времени им понадобилось чтобы дойти до "Поддержка доступа к HDFS через NFSv3;"
> Самому Hadoop это не сильно и нужно. Точнее не нужно совсем. Стало
> быть понадобилось кому то из потребителей. Когда сделали и оттестили, тогда
> и вошло в релиз.самому хадупу (а что/кто это?) это если и нужно, то оно у них есть, в публичной версии, как видим, не было.
> PS не понимаю нужность HDFS через NFS. не будете же вы располагать
> обычные данные (файловые шары / файлы виртуалок / etc) на HDFS.
> загрузить данные для RM можно и через шелл. а вероятнее вообще
> через сборщика данных ;)элементарно. сервис генерит дофига и еще немного логов, внутри этой жавахрени оно обрабатывается нужным образом. теперь сервис писать может их прям в туда, без лишней фигни ;-)
ну и еще: некоторые юзают хдфс именно как распределенную fs
нельзя.
>> Почему Википедию не реализуют на Hadoop? Быстрее бы работала на порядки.
> И какие распределенные вычисления нужно делать википедии?Под вычислениями давно уже понимают не только математические действия.
> Почему Википедию не реализуют на Hadoop? Быстрее бы работала на порядки.Потому что перенос с одной системы на другую очень затратен. Движок изначально жил на MySQL, потому и MySQL только в несколько извращенном варианте используется.
ИМХО Cassandra лучше подходит для Википериа-подобных проектов. Но переписывание Движка дорогое удовольствие, а Wikipedia и так каждый год донаты просит.
А потом раздаёт сервера, купленные на эти попрошайнические деньги.
Есть лаба в колледже Кнокса http://courses.knox.edu/cs395/labs/lab6.pdf по использованию Hadoopa для анализа xml дампа с Википедией. Выясняют какие страницы важнее других.
А почему на сайте версия 2.2.0, а в новости 2.0.0?
На сайте про это написано "2.2.0 - is the first stable release in the 2.x line"