После двух с половиной лет разработки опубликован (http://openmp.org/wp/2015/11/openmp-45-specs-released/) набор спецификаций OpenMP 4.5 (http://openmp.org/wp/openmp-specifications/) (Open Multi-Processing), определяющих API и способы применения методов параллельного программирования для языков Си, Си++ и Фортран на многоядерных и гибридных (CPU+GPU/DSP) системах с общей памятью и блоками векторизации (SIMD). OpenMP 4.5 примечателен расширением средств для параллельного программирования на системах с аппаратными ускорителями и GPU, а также поддержкой распараллеливания циклов с хорошо структурированными зависимостями. Реализация OpenMP 4.5 уже почти завершена в GCC и будет представлена в выпуске GCC 6.0, а также уже началась в экспериментальной ветке Clang, в которой формируется выпуск 3.8.
Основные новшества OpenMP 4.5:
- Значительно улучшена поддержка дополнительных аппаратных вычислительных устройств, таких как специализированные аппаратные ускорители. Реализованы механизмы для привязки к подобным устройствам операций с неструктурированными данными или асинхронного выполнения кода. Добавлены процедуры для управления памятью устройства, позволяющие выделять, копировать и высвобождать блоки памяти;- Представлен механизм "doacross loops (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.55....)", позволяющий организовать распараллеливание циклов с хорошо структурированными зависимостями;
- Новая конструкция "taskloop", позволяющая разделять циклы на задачи, избегая необходимости выполнения всех потоков внутри цикла;
- Поддержка сокращения (редукции) массивов С/С++;
- Новые механизмы hint-ов, через которые можно задать параметры выставления задачам относительных приоритетов и выбора предпочтительных средств синхронизации;
- Поддержка привязки (affinity) потоков к заданным вычислительным устройствам;
- Возможность распараллеливания многих приложений, написанных в соответствии со спецификацией Fortran 2003;
- Поддержка расширений SIMD, в том числе возможность указать точное число обработчиков в потоке (метрика SIMD Width (https://software.intel.com/en-us/node/544541)) и дополнительные атрибуты при обращении к общим данным.URL: http://openmp.org/wp/2015/11/openmp-45-specs-released/
Новость: http://www.opennet.me/opennews/art.shtml?num=43412
Мне показалось, или дизайн подправили?
С кем не общался, все упоминают OpenMP как костыль. И на практике вообще не встречал его применение, хотя много работаю с чужим кодом. Везде используют std::thread, pthread, qthread, qtconcurrent, но не openmp. Кто что думает вообще по этому стандарту? Кто работал с ним?
Я пишу научное ПО с применением openmp. В научных вычислениях это станадрт наряду с MPI.
OpenMP - адский костыль. Представьте, каково это, отлаживать код в котором существенная часть логики сидит в прагмах.
Кому не нравятся прагмы, есть подвижки к переходу на generalized attributes (http://www.open-std.org/jtc1/sc22/wg21/docs/papers/2008/n276...).
Да и существует много задач, для распараллеливание решения которых, достаточно прагрмы, вроде #pragma omp parallel for - никаких проблем с точки зрения читаемости кода и легкости его отладки.
Костыль, но попадаются приложения его использующие тот же imagemagick.
>С кем не общался, все упоминают OpenMP как костыль. И на практике вообще не встречал его применение, хотя много работаю с чужим кодом. Везде используют std::thread, pthread, qthread, qtconcurrent, но не openmp.Всё верно и добавить нечего.
Насколько я помню, изначальная идея была - быстро распараллелить старый код. Поэтому стандарт был построен на прагмах, т.е. по сути командах компилятору, которые сильно замусоривают код, но не требуют его правки. На, как это обычно бывает, реализация поперла дальше идеи.
Лучше бы это всё реализовывывли в синтаксисе языка, не было бы таких проблем с отладкой. Да и поддержку видеокарт и других устройств уже давно пора вводить непосредственно в c++. Но получается тоже всё будет на прагмах.
> Кто работал с ним?Мы используем в John the Ripper вот уже 5 лет. OpenMP может работать костылем (и наше применение как раз этому соответствует, т.к. прагмы добавлялись в том числе в старый код), но может и не (не более чем альтернативы) когда пишется новый код и OpenMP хорошо подходит для задачи (обычно это сколько-нибудь длительные вычисления, а не интерактив).
Проблем с отладкой особо нет (не более чем для альтернатив - ну и что, что прагмы, как будто step-into в их реализации в библиотеке на уровне исходника бы чем-то помог). default(none) помогает избежать части багов в своем коде.
Проблемы с производительностью есть при частой синхронизации потоков (тысячи раз в секунду) и/или на системах с посторонней загрузкой. Это цена за упрощение кода основной программы. Можно эту цену и не платить, а держать раскидывание частей задачи по потокам более под своим контролем, при этом всё равно используя OpenMP, но тогда смысла использовать именно OpenMP меньше. Зато, если отдать всё решать runtime-библиотеке, раскидыванием по потокам можно рулить (static vs. dynamic, affinity, ...) с помощью переменных окружения (и не только) не тратя на это свой код. При этом основная логика вычислений может быть более наглядно видна в исходнике, чем при явной многопоточности.
К тому же, есть OpenMP offload, аналога которого в перечисленных альтернативах нет. Мы пока что его попробовали лишь чуть-чуть, с Xeon Phi. Производительность, как и ожидали, получается хорошая лишь для offload-а сколько-нибудь длительных вычислений (хотя бы сколько-то миллисекунд) и небольшого объема передаваемых данных. Тем не менее, в ряде случаев этого может быть достаточно, а исходник получается проще, чем если всё это делать вручную.
> С кем не общался, все упоминают OpenMP как костыль. И на практике вообще не встречал его
> применение, хотя много работаю с чужим кодом. Везде используют std::thread, pthread,
> qthread, qtconcurrent, но не openmp.По моему ты ваще них..я не понимаешь в параллельных вычислениях.
А сравнивать с тредами все равно, что теплое с мягким.
> Кто работал с ним?Ааааа, ну понятно - не читал, но осуждаю.
OpenMP прагмовая высокоуровневая обертка над тредами
> OpenMP прагмовая высокоуровневая обертка над тредамиДа-да, "настоящие пОцаны" сразу пишут на ассемблере, а не этих ваших "высокоуровневых обёртках". Cool story bro
Настоящие пацаны давно пишут на
> std::thread, pthread, qthread, qtconcurrentи т.п.
> ... не читал, но осуждаю.Не вижу нигде осуждений
> А сравнивать с тредами все равно, что теплое с мягким.Раскроешь нам эту изюминку OpenMP? Ведь вопрос был как раз про это, и походу ты один здесь знаешь истину.
Хранение последовательной и параллельной программы в едином файле исходного кода. Получение соответствующих бинарников зависит от одного ключа. Как долго придётся корячиться с макросами, чтобы в случае чего, скомпилировать последовательную программу на pthreads?Кстати, OpenMP поддерживается MS Visual C++ Compiler, где, внезапно, нет pthreads. Привет, кроссплатформенность.
Какие аналоги #pragma omp simd есть в pthreads?
> Хранение последовательной и параллельной программы в едином файле исходного кодаЭто такая сверх необходимая вещь и всем очень нужная, да еще и не реализуемая на std::thread? Никогда бы не подумал. У всех моих программ простым ключиком можно свести количество потоков к нужному количеству. И это вообще не требует никаких усилий.
> Это такая сверх необходимая вещь и всем очень нужнаяЕсли программа больше 10 строк - то вещь очень нужная, как минимум для отладки.
> не реализуемая на std::thread
Естественно реализуемая. Вопрос в том, какими усилиями?
> У всех моих программ простым ключиком можно свести количество потоков к нужному количеству
OpenMP это умеет ещё и переменными окружения.
А в чем разница между отладкой однопоточного и многопоточного приложения? Или вам это нужно только чтобы отследить разницу в выводе соответствующих версий приложения? Честно говоря, на мой взгляд, этот аргумент в пользу OpenMP очень надуманный. И статистика использования openmp говорит не в его пользу.
>>> А в чем разница между отладкой однопоточного и многопоточного приложения"Слив засчитан" (С)
> Какие аналоги #pragma omp simd есть в pthreads?Вопрос некорректен, Вы сравниваете теплое с мягким.
pthreads - библиотека
OpenMP - языковое расширение, поддержка, которого _необходима_ в компиляторе
Но автовекторизация есть в любом современном компиляторе.
Вообще ручной код на интринсиках под заданную архитектуру уделает #pragma omp simd (и любой другой автовекторизатор, включая icc) как стоячего.
На банальных циклах типа a = a + b автовекторизатор, конечно, справляется, но как только делаем шаг в сторону - просим его, например, векторизовать КИХ фильтр, так внезапно на выходе получаем скалярный код.
На сегодняшний день нет серебрянной пули для автоматической генерации качественного SIMD кода.
> Вопрос некорректен, Вы сравниваете теплое с мягким.Не-не-не, как раз тёплое с мягким и сравниваем, а посему вопрос уместен. Скажем спасибо Анониму.
> OpenMP - языковое расширение, поддержка, которого _необходима_ в компиляторе
Я-то об этом в курсе.
> Вообще ручной код на интринсиках под заданную архитектуру уделает #pragma omp simd.
Не факт. Например, в коде у вас SSE2-интринсики, а у пользователя компилятору строго прописано юзать AVX. Итого: в лучшем случае получите просадку в производительности (ЕМНИП из-за переупаковки данных между группами инструкций), в худшем - ошибку компиляции. С OpenMP такой проблемы не будет. Как и при переносе той же программы на ARM, например.
В худшем случае - Ваша программа упадет на машине без AVX.
PS: раз уж сравнивать начали с SSE2, то ее старший брат AVX2, т.к. AVX - float point only.> С OpenMP такой проблемы не будет. Как и при переносе той же программы на ARM, например
Ага, проблем не будет. Равно как и скорости ))
Ну и на всех Ваших армовских компиляторах конечно же есть поддержка самой последне спеки OpenMP ? Я Вас умаляю.
> float point onlyНачиная с Haswell это, вроде как, не так
Да, потому что в хасвеле появился AVX2
> В худшем случае - Ваша программа упадет на машине без AVX.Нормальная программа не должна падать ни при каких обстоятельствах. Особенно, если теряется контроль на исполняемой средой. Интринсики - попытка быть умнее всех, прикручивая программу к конкретной железке. В некоторых случаях это оправдано (как и ассемблерные вставки, например), но не в случае с софтом широкого назначения: придётся либо ставить ограничения, либо обмазываться ими под каждые наборы инструкций и набор опций компилятора. Последнее вполне может быть причиной воплей: "азазаз, на интеле работает в 10 раз быстрее, чем на амуде, амдуде - сосед" и далее в том же духе, хотя виноват на пользователь, не AMD, а программист, который обязательно полениться / не успеет / не получит денег за очередную 100500-ю реализацию функции под новые интринсики.
> Равно как и скорости ))
Чаще всего софт тормозит не из-за отсутствия интринсиков. Попробуйте оптимизацию на алгоритмическом уровне. В любой случае, между местами быстрой и полностью рабочей программой, я выбираю рабочую.
> Ну и на всех Ваших армовских компиляторах конечно же есть поддержка самой последне спеки OpenMP ? Я Вас умаляю.
Ну, GCC на ARM ещё не забанили.
>Нормальная программа не должна падатьСогласен, для этого в нормальных программах "обмазываются" реализациями под каждый набор инструкций, а в рантайме по cpuid определяют самый быстрый из доступных и исбользуют его в работе.
AMD действительно сосет.
И сосет она не по вине программиста, а потому, что в AMD нет ничего старше SSE3 по части SIMD (убогий SSE4A не предлагать)
Вот мы и получаем, что 12-крылый AMD на фоне четырех головых Core I7 в глубокои анусе при, скажем, софтовом кодировании HEVC.>Попробуйте оптимизацию на алгоритмическом уровне
Ну это совершенно капитанский совет
У меня к Вам встречное предложение - попробуйте скомпилировать на супер дупер авто simd компиляторе, алгоритмически оптимизированный, скажем dct 8x8 (у которого сложность NlogN, против N^2 канонiчной имплементации в лоб). А потом возьмите версию на интринсиках, хотябы на самом дремучем SSE2. Результаты Вас сильно удивят.
Я с этими делами сталкиваюсь каждый день (кодек девелопмент) и сказками про автовекторизацию сыт по горло.Не спорю, для проектов, у которых нет потребности/ресурсов на прокачку DSP части, автовекторизация в любом виде будет приятным бонусом. Взять хотябы то, во что разворачивается на самом деле банальный memcpy
> AMD нет ничего старше SSE3 по части SIMDCPUBoss с Вами не согласен: http://cpuboss.com/cpu/AMD-FX-8320
> скомпилировать на супер дупер авто simd компиляторе
Кто сказал, что #pragma omp simd в OpenMP - это автовекторизация? Не, конечно, сами инструкции подбираются автоматически, учитывая при этом и опции компилятора, но рассовываются и тюнингуются они всё-таки программистом.
> для этого в нормальных программах "обмазываются" реализациями под каждый набор инструкций
> Я с этими делами сталкиваюсь каждый день (кодек девелопмент)Ну, таков Ваш путь.
В общем случае, возня с конкретным процессором - это перспектива дальнейшей возни с другим процессором, что не всегда рентабельно. Векторизация через OpenMP - дешево и сердито. И если результат не удовлетворителен и есть околобесконечные ресурсы, имеет смысл лесть в интринсики, но не раньше.
> Кто сказал, что #pragma omp simd в OpenMP - это автовекторизация?Простите, а что это тогда?
Да, конечно, вы намекаете компилятору, что "тут можно распараллелить цикл в N раз"
Но на этом по сути все и заканчивается> Ну, таков Ваш путь.
Таков путь тех, у кого большой объем DSP вычислений, которые надо делать в реальном времени.
> В общем случае, возня с конкретным процессором - это перспектива дальнейшей возни с другим процессоромУгу, у нас ведь каждый день новая архитектура и набор инструкций рождаются
Я сталкивался с кодом, который использует OpenMP в подобных задачах: https://opus4.kobv.de/opus4-zib/files/4218/wende_steinke.pdfОб автовекторизации задачи здесь речи не идёт. Если кратко, то с использованием OpenMP пишутся аналоги CUDA-ядер, которые запускаются на многоядерных узлах кластера. Коммуникация между узлами осуществляется с использованием MPI.
Вот еслибы это было кроссплатформенностью уровня выполнения, а не компиляции, цены бы этому не было. А так костыль.
> Вот еслибы это было кроссплатформенностью уровня выполнения, а не компиляции, цены бы
> этому не было. А так костыль.По такой логике и Qt -- костыль. И вообще решения на C++ -- костыль.
А Вы, случаем, не фанат Java?)
Отличная практика путать жопу с пальцем. Главное демагогией позаниматься...
Я активно использую openMP в программах на Ansi C11 и очень доволен, согласен что для C++ подходит плохо. OpenMP не умеет исключения, STL контейнеров и смартпоинтеров не понимает, проблемы с контрукторами. OpenMP это для С и Fortran, в С++ лучше не стоит.
из НЕ-проприетарного - он пока безальтернативен для HPC, к сожалению.
не на ICC-же ваять который с MP не дружит. распределенное решение реально работающее - иначе не написать.
OpenMP распространен в научном и инженерном софте, примерно так же как MPI
Только местные школьники-дурачки про это не в курсе :) Эти кловуны выдают бред уровня "pthreads хватит всем", сразу выдающий их "уровень".
OpenMP работает на pthreads, не?
https://software.intel.com/en-us/articles/threading-models-f...In 1997, a group of vendors came together under the aegis of hardware manufacturer, Silicon Graphics, to formulate a new threading interface. Their common problem was that the primary operating systems of the time all imposed drastically different ways of programming for threads. UNIX employed Pthreads, Sun used Solaris threads, Windows used its own API, and Linux used Linux threads (until its subsequent adoption of Pthreads). The committee wanted to design an API that would enable a codebase to run without changes equally well on Windows and UNIX/Linux. In 1998, it delivered the first API specification of what was called OpenMP (In those days, the term ‘open’ was associated with the concept of support from multiple vendors-as in open systems-rather than with today’s implication of open source.)
Нативно ни одна из этих ОС не поддерживает OpenMP. Таким образом, на Unix-like ОС OpenMP работает через pthread. В винде на WinAPI.
OpenMP может работать с SIMD.
OpenMPI еще и сетевым слоем для распределения по GRID/Hybrid-Cluster.Выбор в пользу OpenMPI, если не хотите писать свои костыли для работы по сети.
> OpenMP может работать с SIMD.
> OpenMPI еще и сетевым слоем для распределения по GRID/Hybrid-Cluster.
> Выбор в пользу OpenMPI, если не хотите писать свои костыли для
> работы по сети.В догонку еще один http://www.mpich.org/
и прочая туфта распространена в научном и инженерном софте.
А как вручную рассадить потоки по ядрам?
В pthread-ax разве есть такая возможность?
есть, написать свой планировщик
Ну да, попросить у планировщика ядра(Линя) два ядра(проца) и раздать своим потокам. Знанит есть АПИ к планировщику(Линя), какое?
Чет не попадалось, а libgomp как-то делает.
И у ядер проца нет id-ов (вроде ?).
автору - SIMD это SIMD. а блоки векторизации - это блоки векторизации - не путаем. аналогично это и векторные процессоры(и подсистемы оных) - с первыми двумя.