The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Открыт код СУБД MapD Core, использующей GPU для хранения и обработки данных

15.05.2017 20:24

Компания MapD Technologies объявила об открытии исходных текстов СУБД MapD Core, обеспечивающей создание хранилища в оперативной памяти (IMDB - in-memory database). СУБД поддерживает SQL и оптимизирована для решения задач по анализу и визуализации данных. Код написан на языках C++ и Go, и распространяется под лицензией Apache 2.0.

Особенностью MapD Core является задействование GPU (поддерживается NVIDIA CUDA) для ускорения анализа данных. Отмечается, что обработка данных на стороне GPU позволяет за миллисекунды выполнять запросы, охватывающие миллиарды строк, что на порядок быстрее, чем можно добиться от самых быстрых решений на основе CPU. Например, на системе с несколькими современными видеокартами можно добиться пропускной способности при работе с видеопамятью на уровне 6 TB/sec, что более чем в 40 раз быстрее, чем при работе с памятью на обычном сервере.

Если размер хранимых данных сопоставим с суммарным размером видеопамяти (VRAM) всех GPU, то данные хранятся только в видеопамяти. В противном случае видеопамять всех имеющихся GPU используется как низкоуровневый кэш, в котором поддерживается набор столбцов, наиболее часто востребованных в запросах, а для обработки сложных запросов применяется комбинированная схема, в которой параллельно используются CPU и GPU. Для экономии памяти данные хранятся в сжатом виде.

Общий размер хранилища может многократно превышать размер видеопамяти и ограничен лишь возможностями по наращиванию ОЗУ. Но подобный комбинированный подход медленнее, поэтому для достижения наивысшей производительности рекомендуется, чтобы все данные вмещались в видеопамять. Для сохранения состояния БД между перезапусками возможно поддержание актуального архива данных на SSD-накопителях.

Запросы оформляются на обычном SQL. Поддерживается создание фильтров, группировка, агрегирование данных, слияния запросов (join). Каждый SQL-запрос компилируется с использованием JIT-компилятора в форму, пригодную для выполнения на GPU NVIDIA, а также в вид машинных инструкций для CPU. Такой подход, основанный на идее компиляции SQL в готовый к исполнению обработчик, позволяет обойтись без интерпретаторов и планировщиков запросов. При обработке данных применяется массовое распараллеливание операций, что позволяет добиться максимальной производительности без необходимости использования индексов (перебор огромным числом параллельно выполняемых потоков выполняется быстрее, чем при использовании индексов).

Для подсоединения к СУБД поддерживаются интерфейсы JDBC, ODBC, Apache Thrift, Kafka и Sqoop. MapD также предоставляет встроенный движок отрисовки, позволяющий визуализировать результаты выполнения запросов в виде PNG-изображений на стороне СУБД (для визуализации на стороне клиента требуется передача больших объёмов данных по сети). В случае необходимости создания больших хранилищ или для обеспечения отказоустойчивости предоставляются средства для развёртывания распределённых конфигураций. При этом движок визуализации, компоненты для создании кластерных конфигураций, а также драйверы ODBC и LDAP остаются закрытыми и доступны только в коммерческой редакции MapD Analytics Platform Enterprise Edition.

  1. Главная ссылка к новости (https://www.mapd.com/blog/2017...)
  2. OpenNews: Для PostgreSQL развиваются механизмы ускорения за счёт привлечения GPU
  3. OpenNews: Представлена СУБД InfluxDB 1.0
  4. OpenNews: Представлена децентрализованная СУБД Noms, основанная на идеях Git
  5. OpenNews: Доступна открытая СУБД CrateDB 1.0
  6. OpenNews: Первый стабильный выпуск отказоустойчивой СУБД CockroachDB
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/46553-mapd
Ключевые слова: mapd, database, gpu
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (57) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, A.Stahl (ok), 21:51, 15/05/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +7 +/
    Фигня! Хочу чтобы БД хранила данные в буфере клавиатуры! Сколько там в 8042? Байт 16 точно есть.
     
     
  • 2.2, Аноним (-), 21:59, 15/05/2017 [^] [^^] [^^^] [ответить]  
  • –2 +/
    NVIDIA GEFORCE GTX 1080 поставляется с 64Гб видеопамяти.
     
     
  • 3.4, RazrFalcon (ok), 22:09, 15/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Даже не близко.
     
  • 3.6, kachsheev (ok), 22:15, 15/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    > 64 Гб.

    Пруф модели будет? На ямаркете есть только с 11264 Мб.

     
  • 3.11, PSV (?), 22:52, 15/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    "Заправь плечи" у титанаХ этой линейки куда как меньше.
     
  • 3.31, Это я (?), 08:57, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    при этом в задачи памяти типа gddr не входит контроль и обеспечение целостности данных.
     
     
  • 4.44, Аноним (-), 16:45, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    nvidia говорит что опционально включаемо начиная с fermi
    на tesla 20x говорит что кэш и регистры автоматически ecc
     
  • 2.17, all_glory_to_the_hypnotoad (ok), 01:18, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Бывают разные, даже с процессором и около 64к памяти.
     
  • 2.43, Аноним (-), 16:28, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Есть радеоны с терабайтным SSD на борту. Луркай Radeon Pro SSG.

    Ссылка: http://www.amd.com/Documents/Radeon-Pro-SSG-Technical-Brief.pdf

     

  • 1.3, Аноним (-), 22:07, 15/05/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > СУБД MapD Core, использующей GPU для хранения и обработки данных, поддерживает SQL

    Всякие куды, шейдеры, вулканы теперь не нужны. Теперь пикселя считает база! Ждем ААА игры на SQL!

     
  • 1.5, Crazy Alex (ok), 22:12, 15/05/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +13 +/
    Ну и откуда петросяновщина? Вроде ж уже все в курсе, что "видеокарты" - это такие мощные параллельные считалки чего попало?
     
     
  • 2.9, Аноним (-), 22:37, 15/05/2017 [^] [^^] [^^^] [ответить]  
  • +6 +/
    Увидели знакомые слова "СУБД" и "GPU" в непривычной связке, шаблон порвало, вот и начали "хохмить" (а по факту демонстрировать свою неосведомленность; по уровню комментариев видно, что их авторы не удосужились ну хотя бы прочитать статью "CUDA" в википедии).
     
  • 2.14, EHLO (?), 00:14, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • –2 +/
    > Ну и откуда петросяновщина? Вроде ж уже все в курсе, что "видеокарты"
    > - это такие

    малонужные асики, которые умеют немного майнить и запускать иоба, но их покупку нужно как-то обосновать руководству/родителям.


     
     
  • 3.15, Аноним (-), 00:28, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    видяха не асик
     
     
  • 4.37, ano (??), 11:01, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    пруф?
     
     
  • 5.41, bircoph (ok), 14:58, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > пруф?

    - электровоз — не самолёт
    - пруф?

     
     
  • 6.48, ano (??), 20:20, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    электровоз от самолета можно визуально отличить.
    ты без рентгена и не имея исходников фирмвари, которой прошиваются видяхи умеешь отличить асик или нет?!
    да ты супермен!
     
     
  • 7.52, Ordu (ok), 08:57, 17/05/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Да ладно... Ты не можешь визуально отличить асик от видеокарты?
     
     
  • 8.59, ano (??), 23:01, 18/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    тёплое от мягкого а ну ка, умник, скажи что где изображено http i imgur co... текст свёрнут, показать
     
     
  • 9.61, Ordu (ok), 00:15, 19/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Микросхемы какие-то Среди них нет видеокарты ... текст свёрнут, показать
     
  • 9.62, Аноним (-), 20:17, 20/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Подсказка У асика нет VGA разьема... текст свёрнут, показать
     
  • 7.53, Ordu (ok), 08:58, 17/05/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > электровоз от самолета можно визуально отличить.
    > ты без рентгена и не имея исходников фирмвари, которой прошиваются видяхи умеешь
    > отличить асик или нет?!
    > да ты супермен!

    А материнскую плату от клавиатуры ты можешь отличить визуально?

     
  • 2.18, all_glory_to_the_hypnotoad (ok), 01:22, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    >  Вроде ж уже все в курсе, что "видеокарты" - это такие мощные параллельные считалки чего попало?

    На самом деле нет, не чего попало. И таки да, всем известно что на GPGPU (а не любое GPU) можно эффективно считать только ограниченный круг задач.

     
     
  • 3.21, Crazy Alex (ok), 03:20, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Понятно, что я преувеличил слегка для простоты, но то, что выше - совсем уж ярый гон.
     
  • 2.30, ыы (?), 08:35, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Ну и откуда петросяновщина? Вроде ж уже все в курсе, что "видеокарты"
    > - это такие мощные параллельные считалки чего попало?

    Невежество в данном вопросе колоссальное у людей думающих что мощные параллельные считалки чего попало (на самом деле далеко не чего попало) будут хорошо работать реализуя например бизнес-логику реляционных баз данных.
    То что сказано в новости- узкий круг специфичных задач...

     
     
  • 3.33, Аноним (-), 09:38, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    В новости нигде и не сказано, что эту штуку позиционируют как конкурента "СУБД общего назначения". Да, это нишевый инструмент. И что?
    Из-за чего бурление? Из-за того, что ребята написали интересную штуковину да ещё и открыли код?
     

  • 1.7, Аноним (-), 22:17, 15/05/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –2 +/
    Правильно ! Да здравствуют БД на GPU и графика на CPU !
     
     
  • 2.13, EHLO (?), 00:06, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    >Правильно ! Да здравствуют БД на GPU и графика на CPU !

    и фреймбуффер на SSD

     

  • 1.16, ыы (?), 00:36, 16/05/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    срочно выкидываем все стойки с блэйдами и ставим писюки набитые видюшками...
     
     
  • 2.19, all_glory_to_the_hypnotoad (ok), 01:24, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Так уже давно делают, см. из чего сделаны разные кластера из торNNN.
     
     
  • 3.22, Crazy Alex (ok), 03:24, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • –3 +/
    Вот, теперь твой черёд капитаном Очевидность поработать... Могу тоже прицепиться - туда не совсем писюки пихают и не совсем с видюшками (а таки с GPGPU)... но, опять же, в сравнении с явным невежеством товарища выше - не принципиально.
     
     
  • 4.26, ыы (?), 08:15, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    да, явное невежество товарищей не понимающих разницы между вычислительным кластером и инфраструктурой для баз данных - на лицо :)
     
  • 3.27, ыы (?), 08:18, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Так уже давно делают, см. из чего сделаны разные кластера из торNNN.

    и на скольки изэтих кластеров работают базы данных????

     

  • 1.20, АнонимХ (ok), 02:40, 16/05/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Ну чего , парни ищут инвестиции, порадоваться за них надо. вон какую презентацию налабали,даже на русский перевели, не иначе, на сколковский гранд рассчитывают. Интересно, кроме синтетики, это вообще можно применить для хоть каких-то данных
     
     
  • 2.45, Анона (?), 16:52, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Неа, более того, тот же ClickHouse для задач аналитики на CPU уделывает этого немасштабируемого монстра, ведь ему не требуется железо за котлету денег и скейлится на многие задачи он горизонтально и почти линейно.
     

  • 1.23, Аноним (-), 04:53, 16/05/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Звучит, конечно, как фантастика.

    Ребята не юзают ни индесов, ни оптимизаторы и на каждый запрос тупо перебирают всю базу. Понятное дело, что сложную логику на gpu сложно реализовывать, но для практического использования этот метод не подойдет. Если сейчас размер бд ограничивается памятью видеокарт, то его можно применять только в очень узких задачах (в статье написано, что можно использовать базы большие, чем память видеокарт, но, если для любого запроса нужно все данные пропускать через память карточки, то более традиционные in-memory бд с оптмизациями будут намного выигрышнее).

    Хотя перспективы, конечно, большие.

     
     
  • 2.24, лютый жабист__ (?), 05:35, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    >Ребята не юзают ни индесов, ни оптимизаторы и на каждый запрос тупо перебирают всю базу

    Таких изобретателей квадратноколёсых велосипедов полно. Тоже встречал деятелей, которые полгода на си писали бизнеслогику (ну анси си же быстрый!11111) на самодельных структурах, подозреваю, что на банальных array-ях.

    Потом (мне) было очень смешно, когда первая попавшаяся графовая субд написанная на "тормозной жабе" порвала эту поделку как Тузика.

     
     
  • 3.28, Аноним (-), 08:26, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Опять ты свои байки рассказываешь :)

    >когда первая попавшаяся графовая субд

    Что за БД? Сколько в нее угрохали сил и времени? Тоже полгода потратили? Не верю.

     
     
  • 4.38, лютый жабист__ (?), 12:51, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    >Что за БД? Сколько в нее угрохали сил и времени?

    Читать глазами, а не Ж не пробовал? Вместо велосипеда на си взяли готовую субд (название не вижу смысла писать) и оно оказалось быстрее в тысячи раз.

    Уверен, что на не локалхостовых проектах MapD сольёт банальной ну например Кассандре.

     
     
  • 5.46, Аноним84701 (ok), 17:00, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +3 +/
    > Уверен, что на не локалхостовых проектах MapD сольёт банальной ну например Кассандре.

    Отличная отмазка. Если что, то проект "недостаточно нелокалхостен", да?

    > и оно оказалось быстрее в тысячи раз.

    Ну, тут конечно не тысяча, а только четверь, зато вполне конкретно, а не "название не вижу смысла писать" ...
    https://www.reddit.com/r/programming/comments/2svijo/commandline_tools_can_be_
    > Command-line tools can be 235x faster than your Hadoop cluster

    И что теперь? Выкидываем все хадопы или все же задумываемся о рукопопии?
    Хотя да, если продолжать традиции опеннета:
    Быстрее в 235 раз, Карл!
    хадоп == жабка, юникстулс == си,
    235х ... обтекайте. :)

     
     
  • 6.47, angra (ok), 18:35, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > хадоп == жабка, юникстулс == си,
    > 235х ... обтекайте. :)

    Там еще веселее, основную работу делает код на awk, так что это awk в 235 раз быстрее жабы :)

     
  • 6.51, лютый жабист__ (?), 06:15, 17/05/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    1ГБ тестовых данных для распределенных вычислений, это мощно! Типичный кульсисоп локалхоста опоносил Хадуп. Другие кульсисопы бездумно разносят помои дальше по инету...

    А караван идёт себе дальше... Кстати, Хадуп был моден 10 лет назад, щас рулит Spark.

     
     
     
     
    Часть нити удалена модератором

  • 9.60, Led (ok), 23:21, 18/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    ... текст свёрнут, показать
     

  • 1.25, economist (?), 08:13, 16/05/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    А вот встроенный движок отрисовки диаграмм в PNG - зачётно. Сколько приходится городить костылей в бизнес приложения из-за этого. GnuPlot, MatPlotlib, RRDTools, GoogleChart и еще с десяток - так или иначе приходится изучать и лепить... в 80% случаев ради десятка простых диаграмм. Хочу в SQLite такую штуку.

    А в целом у современных компьютеров, продающихся в розницу - 50% цены это видюха. Грех не задействовать это добро. Вот в LibreOffice - включенный OpenCL реально помогает в расчетах больших таблиц, ускорение расчета в 4-8 раз.  

     
     
  • 2.29, ыы (?), 08:30, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    > А вот встроенный движок отрисовки диаграмм в PNG - зачётно. Сколько приходится

    ненужная чушь

    > городить костылей в бизнес приложения из-за этого. GnuPlot, MatPlotlib, RRDTools, GoogleChart
    > и еще с десяток - так или иначе приходится изучать и
    > лепить... в 80% случаев ради десятка простых диаграмм. Хочу в SQLite
    > такую штуку.

    Возьмите готовый BI или его бесплатный аналог и не мучайтесь.

    > А в целом у современных компьютеров, продающихся в розницу - 50% цены
    > это видюха. Грех не задействовать это добро. Вот в LibreOffice -
    > включенный OpenCL реально помогает в расчетах больших таблиц, ускорение расчета в
    > 4-8 раз.

    Задействовать то можно.. но чтоб оно было прозрачно и без необходимости переустанавливать инфраструктуру.

     

  • 1.32, Аноним (-), 09:00, 16/05/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Вроде постгрес уже давно обещали видюхами ускорять, правда я забросил следить за этим делом
     
  • 1.34, Аноним (-), 09:39, 16/05/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    CUDA - проприетарщина, поэтому опенсорсу толку от этого ноль.
     
     
  • 2.35, Аноним (-), 09:48, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Практически всё железо проприетарщина. Но Вы же сюда не с "Паскалины" пишет.
     

  • 1.36, Sen (?), 09:56, 16/05/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Хорошо, для анализа видео/аудио информации самое оно! Можно писать систему наблюдения и безопасности на ней.
     
  • 1.39, adolfus (ok), 14:17, 16/05/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А что, GPU уже научились работать с целочисленными данными, битовыми и символьными строками wchаr/wstring? Или о каких данных идет речь?
     
     
  • 2.40, Crazy Alex (ok), 14:28, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • –2 +/
    О тех, с которыми они работать умеют, вестимо.

    Из того, что я видел - та же финансовая статистика во float ложится отлично, для аналитики там куча однообразных расчётов, так что CPU-bound выходит, а объёмы хоть и приличные, но довольно предсказуемые, из оперативки заливать в "горячий кэш" на видеокарте - вполне реально.

     
  • 2.58, Hubbitus (ok), 22:46, 18/05/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Полагаю это может быть полезно для алгоритмов Machine Learning.
    Где скорее важно работать не с текстом, а с всевозможными алгоритмами, использующими его векторизацию тем или иным способом. Например TF-IDF, Word2Vec и другие. И мы получаем какраз представление текста как разреженного вектора float высокой размерности (легко размерность может быть до миллиона, если текст не слишком короткий). А тут уже, скажем для алгоритмов кластеризации, где нужно считать расстояния между разреженными векторами GPU какраз должно быть, теоретически, весьма эффективно.
     

  • 1.42, Аноним (-), 15:47, 16/05/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    а как там у видеокарт с памятью в плане коррекции ошибок? где то читал там память в этом смысле даже хуже чем обычная, важна скорость и ошибки там не исправляются.
     
     
  • 2.49, Аноним (-), 22:14, 16/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    вы часто сталкивались с проблемами решаемыми коррекцией ошибок памяти?
     
     
  • 3.50, mixaly4 (?), 00:54, 17/05/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Одно время занимался отладкой в специфичном ядре этой самой корекции.
    Вродебы польза есть.
     

  • 1.55, Вареник (?), 17:37, 17/05/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Идя хорошая. Рано или поздно комп начнет строиться вокруг пула процессоров (GPU), а не ЦП.

    ЦП уже сейчас работает как IO периферия для GPU.

     
  • 1.63, Al (??), 06:50, 22/05/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    круто!
    а про перебор данных для обучения нейросетей только я подумал?
    там таких объемов что в память влезает может хватить вполне
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру