The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Увидела свет платформа для распределённой обработки данных A..."
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Увидела свет платформа для распределённой обработки данных A..."  +/
Сообщение от opennews (??) on 17-Окт-13, 06:36 
Организация Apache Software Foundation представила (https://blogs.apache.org/foundation/entry/the_apache_softwar...) релиз Apache Hadoop 2 (http://hadoop.apache.org), свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce (http://ru.wikipedia.org/wiki/MapReduce), при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и  содержать эксабайты данных (общий объём цифровой информации на Земле оценивается в 161 эксабайт).

В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции.  Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала (http://www.opennet.me/opennews/art.shtml?num=26398) Hadoop и другим проектам Apache  право использования технологий, на которые распространяются патенты, связанные с методом MapReduce.


Hadoop-кластеры, обрабатывающие десятки петабайт информации, развёрнуты в таких компаниях, как  Yahoo, Facebook, Amazon, AOL, Apple, eBay, HP, LinkedIn, Netflix, Rackspace и Twitter. Рекордсменом является Hadoop-кластер Yahoo, состоящий из 35 тысяч узлов. Hadoop лежит в основе платформы Oracle Big Data (http://www.opennet.me/opennews/art.shtml?num=31955) и некоторых продуктов компаний Microsoft, IBM, Teradata и SAP. Hadoop является одним из ключевых звеньев суперкомпьютера IBM Watson, который выиграл (http://www.opennet.me/opennews/art.shtml?num=29596) сражение с лучшими игроками телевизионной игры-викторины "Jeopardy!".


Особенности выпуска Apache Hadoop 2:

-  Реализация YARN (MapReduce 2.0), позволяющего одновременно запускать различные приложения для обработки данных (например, Apache Hadoop MapReduce и Apache Storm) и сервисы (например, Apache HBase). Основная идея YARN заключается в выделении в отдельные демоны частей, связанных с отслеживанием выполнения заданий (JobTracker), управленем ресурсами и планированием работ. Ключевые компоненты YARN:  ResourceManager (RM, управляет распределением всех ресурсов системы для всех приложений), NodeManager (координирует работу каждого узла) и  ApplicationMaster (AM, запускается для каждого приложения и обеспечивает выполнение заданий с использованием полученных от ResourceManager ресурсов).

<center><a href="http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yar... src="http://www.opennet.me/opennews/pics_base/0_1381942193.gif" style="border-style: solid; border-color: #e9ead6; border-width: 15px;" title="" border=0></a></center>

-  Обеспечение высокой доступности для HDFS;
-  Средства для объединения разных экземпляров HDFS (Federation HDFS);
-  Возможность создания снапшотов данных в HDFS;
-  Поддержка доступа к HDFS через NFSv3;
-  Обеспечение бинарной совместимости с существующими приложениями  MapReduce, созданными для Apache Hadoop 1.x;
-  Поддержка платформы Microsoft Windows.


URL: https://blogs.apache.org/foundation/entry/the_apache_softwar...
Новость: http://www.opennet.me/opennews/art.shtml?num=38184

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


4. "Увидела свет платформа для распределённой обработки данных A..."  –4 +/
Сообщение от Аноним (??) on 17-Окт-13, 08:44 
МОжет и в России когда-нибудь будут компании, которые используют Hadoop . Не всё же время нефть качать
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

15. "Увидела свет платформа для распределённой обработки данных A..."  +1 +/
Сообщение от Devider (ok) on 17-Окт-13, 09:38 
Они есть.
Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

17. "Увидела свет платформа для распределённой обработки данных A..."  +/
Сообщение от Аноним (??) on 17-Окт-13, 10:01 
Надо сделать DCM4CHEE или аналогичный PACS на Hadoop, а не на связке MySQL/DICOMDIR (другие PACS используют практически ту же медленную архитектуру). Иначе не сделать быстрый PACS.
Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

30. "Увидела свет платформа для распределённой обработки данных A..."  –1 +/
Сообщение от gleb_se (ok) on 17-Окт-13, 21:35 
Вроде Mail.ru использует Hadoop для поиска: http://habrahabr.ru/company/mailru/blog/167297/
Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

31. "Увидела свет платформа для распределённой обработки данных A..."  +/
Сообщение от edwin email(??) on 17-Окт-13, 22:15 
> МОжет и в России когда-нибудь будут компании, которые используют Hadoop . Не
> всё же время нефть качать

Знаю несколько довольно крупных компаний. у которых на нем развернуто решение ряда внутренних задач ... беда в том, что компании эти не афишируют этого факта и узнать об этом можно только "за рюмкой чая" с коллегами ...  

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

32. "Увидела свет платформа для распределённой обработки данных A..."  +/
Сообщение от all_glory_to_the_hypnotoad (ok) on 18-Окт-13, 22:42 
его используют многие компании для задач data mining'а. В частности все известные интернет проекты и рекламщики. Некоторые упорыши додумались даже на нём поиск делать
Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

5. "Увидела свет платформа для распределённой обработки данных A..."  +/
Сообщение от Аноним (??) on 17-Окт-13, 08:46 
Почему Википедию не реализуют на Hadoop? Быстрее бы работала на порядки.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

7. "Увидела свет платформа для распределённой обработки данных A..."  +5 +/
Сообщение от Забей on 17-Окт-13, 08:51 
> Почему Википедию не реализуют на Hadoop? Быстрее бы работала на порядки.

И какие распределенные вычисления нужно делать википедии?

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

10. "Увидела свет платформа для распределённой обработки данных A..."  –1 +/
Сообщение от Аноним (??) on 17-Окт-13, 08:58 
Hadoop ведь можно использовать как поисково и распределённую систему, позволяющую быстро выдавать результат из большого количества серверов. Это как раз и нужно в Википедии - сейчас Википедия хранит данные в MySQL. Конечно количество запросов к Википедии немаленькое, но иногда она сильно тормозит. Map/Reduce мне кажется помогла бы убыстрить Википедию
Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

13. "Увидела свет платформа для распределённой обработки данных A..."  +/
Сообщение от VoDA (ok) on 17-Окт-13, 09:23 
> Конечно количество
> запросов к Википедии немаленькое, но иногда она сильно тормозит. Map/Reduce мне
> кажется помогла бы убыстрить Википедию

Простите, а как MR поможет ускорить Wikipedia? MR позволяет довольно быстро анализировать/агрегировать данные, но у Wikipedia мало именно агрегаций. Основная их нагрузка это чтение и запись wiki-страничек. В данном случае им нужна распределенность и отказоустойчивость. По сути любая распределенная система хранения вида multi-master подойдет.

PS скорее всего HBase, что поверх Hadoop тоже подойдет для Wikipedia. Только будут ли они переделывать движок системы...

Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

16. "Увидела свет платформа для распределённой обработки данных A..."  +/
Сообщение от тигар (ok) on 17-Окт-13, 09:53 
может таки hbase поверх hdfs ? ;-)

p.s. ох и много же времени им понадобилось чтобы дойти до "Поддержка доступа к HDFS через NFSv3;"
а то вебдав да еще какие-то костыли только были.

Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

22. "Увидела свет платформа для распределённой обработки данных A..."  +/
Сообщение от VoDA (ok) on 17-Окт-13, 12:01 
> p.s. ох и много же времени им понадобилось чтобы дойти до "Поддержка доступа к HDFS через NFSv3;"

Самому Hadoop это не сильно и нужно. Точнее не нужно совсем. Стало быть понадобилось кому то из потребителей. Когда сделали и оттестили, тогда и вошло в релиз.

PS не понимаю нужность HDFS через NFS. не будете же вы располагать обычные данные (файловые шары / файлы виртуалок / etc) на HDFS. загрузить данные для RM можно и через шелл. а вероятнее вообще через сборщика данных ;)

Ответить | Правка | ^ к родителю #16 | Наверх | Cообщить модератору

23. "Увидела свет платформа для распределённой обработки данных A..."  +/
Сообщение от тигар (ok) on 17-Окт-13, 12:11 
>> p.s. ох и много же времени им понадобилось чтобы дойти до "Поддержка доступа к HDFS через NFSv3;"
> Самому Hadoop это не сильно и нужно. Точнее не нужно совсем. Стало
> быть понадобилось кому то из потребителей. Когда сделали и оттестили, тогда
> и вошло в релиз.

самому хадупу (а что/кто это?) это если и нужно, то оно у них есть, в публичной версии, как видим, не было.
> PS не понимаю нужность HDFS через NFS. не будете же вы располагать
> обычные данные (файловые шары / файлы виртуалок / etc) на HDFS.
> загрузить данные для RM можно и через шелл. а вероятнее вообще
> через сборщика данных ;)

элементарно. сервис генерит дофига и еще немного логов, внутри этой жавахрени оно обрабатывается нужным образом. теперь сервис писать может их прям в туда, без лишней фигни ;-)
ну и еще: некоторые юзают хдфс именно как распределенную fs

Ответить | Правка | ^ к родителю #22 | Наверх | Cообщить модератору

33. "Увидела свет платформа для распределённой обработки данных A..."  +/
Сообщение от all_glory_to_the_hypnotoad (ok) on 18-Окт-13, 22:44 
нельзя.
Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

18. "Увидела свет платформа для распределённой обработки данных A..."  +/
Сообщение от Аноним (??) on 17-Окт-13, 10:02 
>> Почему Википедию не реализуют на Hadoop? Быстрее бы работала на порядки.
> И какие распределенные вычисления нужно делать википедии?

Под вычислениями давно уже понимают не только математические действия.

Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

12. "Увидела свет платформа для распределённой обработки данных A..."  –2 +/
Сообщение от VoDA (ok) on 17-Окт-13, 09:18 
> Почему Википедию не реализуют на Hadoop? Быстрее бы работала на порядки.

Потому что перенос с одной системы на другую очень затратен. Движок изначально жил на MySQL, потому и MySQL только в несколько извращенном варианте используется.

ИМХО Cassandra лучше подходит для Википериа-подобных проектов. Но переписывание Движка дорогое удовольствие, а Wikipedia и так каждый год донаты просит.

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

21. "Увидела свет платформа для распределённой обработки данных A..."  +/
Сообщение от cijic (ok) on 17-Окт-13, 11:11 
А потом раздаёт сервера, купленные на эти попрошайнические деньги.
Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

9. "Увидела свет платформа для распределённой обработки данных A..."  +/
Сообщение от Аноним (??) on 17-Окт-13, 08:55 
Есть лаба в колледже Кнокса http://courses.knox.edu/cs395/labs/lab6.pdf по использованию Hadoopa для анализа xml дампа с Википедией. Выясняют какие страницы важнее других.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

14. "Увидела свет платформа для распределённой обработки данных A..."  +1 +/
Сообщение от Виндузятник email on 17-Окт-13, 09:35 
А почему на сайте версия 2.2.0, а в новости 2.0.0?
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

19. "Увидела свет платформа для распределённой обработки данных A..."  +/
Сообщение от Аноним (??) on 17-Окт-13, 10:08 
На сайте про это написано "2.2.0 - is the first stable release in the 2.x line"
Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру