В рамках проекта back40computing (http://code.google.com/p/back40computing) подготовлен (http://code.google.com/p/back40computing/wiki/RadixSorting) работающий механизм сортировки большого объема данных, использующий для ускорения технологию CUDA (http://ru.wikipedia.org/wiki/CUDA) (Compute Unified Device Architecture), позволяющую вынести некоторые вычислительные задачи на плечи графического процессора.Разработка интересна прежде всего, тем, что представленный алгоритм SRTS Radix Sorting (http://code.google.com/p/back40computing/wiki/RadixSorting) опровергает бытующее мнение о низкой эффективности использования GPU для оптимизации задач, связанных с сортировкой. На обычном компьютере с современной видеокартой NVIDIA GeForce GTX480 представленный код обеспечивает производительность, позволяющую сортировать несколько миллиардов 32-разрядных целых чисел в секунду, что в несколько раз превышает скорость работы самых быстрых алгоритмов сортировки, работающих с привлечением обычного...
URL: http://developers.slashdot.org/story/10/08/30/0133203/Sortin...
Новость: http://www.opennet.me/opennews/art.shtml?num=27785
Кто напишет патч в postgres?
было бы еще куда в сервак ввдюху втыкать :(
В сервак втыкается Тесла, а не видюха, а PCI-Express нынче и на серваках есть, вроде как.
Или вы про совсем ультра-тонкие? :)
Дык в этой рекламе речь идет о GTX 480, а она действительно не в каждый стоечный сервер полезет, мягко говоря.
>Дык в этой рекламе речь идет о GTX 480, а она действительно
>не в каждый стоечный сервер полезет, мягко говоря.1 Кому надо в сервер, купит Теслу, кому надо еще и в стойку, купит девайс НВидевский с Теслами, он в стойку и вмещается, такой себе счетный сервер.
2 Если указанный присрост на GTX 480 есть, то на Теслах он не меньше будет точно. Это видимо у тестера была такая железяка, на ней и провели опыт. Ничего рекламного.
>Кому надо в серверА кому надо сортировать циферы на домашнем компе??? 0_0
Аналогичная GTX 480 по скорости Тесла сама по себе стоит как 2U сервер с двума Зионами, если не больше. Ради ускорения сортировки цифер в 2-3 раза(это максимум, учитывая, что здесь сравнивают c одним Core-i7), никому это не надо.
Если бы GTX 480 за 500$, еще можно было бы подумать, а с Теслой бессмысленно.>Если указанный присрост на GTX 480 есть, то на Теслах он не меньше будет точно
А там есть какая-то принципиальная разница кроме наличия ECC и отсутствия видеовывода?
Ах да, там кастрировали операции с двойной точностью в 4 раза. Скажется ли это в данном случае? Ну чтож подождем результатов тех же вычислений на Тесле.PS Сходил по ссылке, там на графике видно, что даже Тесла C2050 отстает от GTX480. Короче все ясно с этими проприетарщиками из NVIDIA и их рекламой =).
>>Кому надо в сервер
>
>А кому надо сортировать циферы на домашнем компе??? 0_0У кого домашний комп уже есть, а задачи возникают слишком часто, что бы не иметь выигрыша от CUDA, но недостаточно часто, что бы Тесла себя оправдала, тому и CUDA на обычной карте - хлеб. Но ведь тут вопрос был что мы мол такие крутые и нам в сервер видюху пихать?
>Аналогичная GTX 480 по скорости Тесла сама по себе стоит как 2U
>сервер с двума Зионами, если не больше. Ради ускорения сортировки цифер
>в 2-3 раза(это максимум, учитывая, что здесь сравнивают c одним Core-i7),
>никому это не надо.
>Если бы GTX 480 за 500$, еще можно было бы подумать, а
>с Теслой бессмысленно."Дешеве воно и е дешеве". Каждая железяка для своего класса задач, речь шла о тех, кому реально нужна Тесла и кто может себе позволить это.
>>Если указанный присрост на GTX 480 есть, то на Теслах он не меньше будет точно
>
>А там есть какая-то принципиальная разница кроме наличия ECC и отсутствия видеовывода?Вообще есть.
>Ах да, там кастрировали операции с двойной точностью в 4 раза. Скажется
>ли это в данном случае? Ну чтож подождем результатов тех же
>вычислений на Тесле.А еще в видяхе кастрирована шина или количество PU. Для видяхи CUDA это все таки не основная задача. Это скорее премия.
>PS Сходил по ссылке, там на графике видно, что даже Тесла C2050
>отстает от GTX480. Короче все ясно с этими проприетарщиками из NVIDIA
>и их рекламой =).:)
аналогичная 480-ой гефорце тесла стоит как средненькой дешевизны 1У сервер, по цене хорошего сервака с двумя хсеонами в 1366 сокет (а именно они и аналогичны кор и7) можно купить сервак с четырьмя теслами внутри, которые дадут приросту в 4-6 раз при той же стоимости и занимаемом пространстве - как по мне, так предложение стоящеено на самом же деле полезная производительность тесел в пересчёте на цену и в отношении к интелям на х86 получается всего в полтора раза лучше. и электричества экономия получается такая же. но вот сколько места в стойке можно сэкономить - вот это уже дофига.
ну а принципиальной разницы кроме ецц в теслах нет, да. но в серверах ецц решает сильно, в отличие от десктопов. хотя ни кто не запрещает сделать програмный аналог этой ецц. но и сэкономим ровно столько же, сколько потеряем в производительности.
Боком. Переходники продаются.
Так можно какую-нибудь сетевушку запихнуть, HBA, или очень маленькую видяшку. Я пытался в x3650 радион HD5670 сунуть и не получилось. А производительную двухслотовую видяху однозначно не получится. Кстати через PCI-E шину насколько я помню только 150 ватт можно подать, значит еще два шланга ватт на 300 в сумме понадобится прокинуть. Теретически конечно можно, но нужен Кулибин и пара электролобзиков и огнетушитель на всякий пожарный.
В PCI-Express 1x спокойной влезает видеокарта для 16x. Только надо подпилить или видеокарту, или разъём... Дело в том, что в первых двух сантиметрах розетки PCI-Express находится вся основная связь. Остальное - для передачи обрабатываемых устройством данных
Собственно Кулибин уже есть. Осталось найти лобзик, огнетушитель и спонсора на железо.
>В PCI-Express 1x спокойной влезает видеокарта для 16x. Только надо подпилить или
>видеокарту, или разъём... Дело в том, что в первых двух сантиметрах
>розетки PCI-Express находится вся основная связь. Остальное - для передачи обрабатываемых
>устройством данных+1 =)
Наверное, только в России компьютерщику может понадобиться пила и молоток =)
примерно так это выглядит:
http://www.youtube.com/v/Z5nJBX3tlhM
Торопитесь пордсесть на проприетарную CUDA?
Правильно, ведь она в четыре раза быстрее, чем обычный порошок^W ЦПУ!
>Торопитесь пордсесть на проприетарную CUDA?
>Правильно, ведь она в четыре раза быстрее, чем обычный порошок^W ЦПУ!Ага, с Куды можно соскочить, а вот ЦПУ - это пожизненно.
подсесть на CUDA не значит соскочить с ЦПУ
>подсесть на CUDA не значит соскочить с ЦПУДа ну. Впаять NV-чип и работать с ним можно и без ЦПУ.
Есть ПЛИСы и DSP, кроме того есть
ClearSpeed - http://www.clearspeed.com/index.php
TEXAS MEMORY SYSTEMS - http://www.superdsp.com/products/products_tm100.asp
Есть чудный BlackFin от Analog Devices.В общем, х86 и Nvidia - это ширпотреб. (от слова ширятся)
>[оверквотинг удален]
>
>Да ну. Впаять NV-чип и работать с ним можно и без ЦПУ.
>
>
>Есть ПЛИСы и DSP, кроме того есть
>ClearSpeed - http://www.clearspeed.com/index.php
>TEXAS MEMORY SYSTEMS - http://www.superdsp.com/products/products_tm100.asp
>Есть чудный BlackFin от Analog Devices.
>
>В общем, х86 и Nvidia - это ширпотреб. (от слова ширятся)Все можно назвать ширпотребом, отличие х86 в том, что она достаточно открыта.
А чем DSP - не CPU? Вон .36 ядро под Blackfin (куда уж DSPшнее?) подпилили в .36 RC. А если у ARM набор команд с DSP-расширениями - он тогда кто? :)
> А если у ARM набор команд с DSP-расширениями - он тогда кто? :)DSPU :)
Никто. У библиотеки CUDA несвободная лицензия.
>в несколько раз превышает скорость работы самых быстрых алгоритмов сортировки, работающих с привлечением обычного CPUОдного CPU? А в этой NVIDIA GeForce GTX480 их 480. Отличное сравнение.
Угу, а вы сначала уместите 480 CPU в форм-факторе, хотя бы 1U и тогда можно кричать. Опять же никто не говорит про 1 CPU.
CPU для этого и не нужен. Вот зачем к примеру сортировке защищённый режим, прерывания и более чем 2 регистра? Наверняка можно сделать устройство для сортировки ещё быстрее и дешевле, чем CPU или GPU. Просто здесь сравнение алгоритмов для 1 и нескольких процессоров.
А потом прикрутить к устройству ещё несколько регистров и научить его работать с памятью напрямую, а заодно организовать ему свой блок памяти, где она будет крутить всё это не замораживая исходный блок, ещё несколько регистров для адресации всего этого дела, ещё буфер в котором будут храниться результаты, ещё отдельно организовать для неё питание и синхронизацию по шинам, ну и в конце концов прикрутить охлаждение. А потом нам захочется ещё и MD5 считать, SHA1 и ещё что-то и будет рядом с компом ещё пара шкафов стоять "чисто по мелочи посчитать". Ъ?
>А потом прикрутить к устройству ещё несколько регистров и научить его работать
>с памятью напрямую, а заодно организовать ему свой блок памяти, где
>она будет крутить всё это не замораживая исходный блок, ещё несколько
>регистров для адресации всего этого дела, ещё буфер в котором будут
>храниться результаты, ещё отдельно организовать для неё питание и синхронизацию по
>шинам, ну и в конце концов прикрутить охлаждение.А потом захочется создать второй, третий,..., n-ый такой же девайс,
организовать меж ними SMP и распаралеллить процесс на 2,3, n независимых потока.
Если PU не предназначено для вывода графики это GPU или CPU?
http://www.servershop.ru/detail_14950.htm
:)
Пфф, фигня какая.. Вот был бы там видео выход ..
>Пфф, фигня какая.. Вот был бы там видео выход ..1 С видеовыходом вам обычную карту взять и не пфыкать религия не позволит?
2 Зачем на серваке выдеовыход из круть3Дкарты?
Ну, с такими показателями можно было бы купить карту лет на 10 =)
>Ну, с такими показателями можно было бы купить карту лет на 10
>=)Строгого режима? Это же что считать там надо? :)
Это не сервак, я вам уже об этом писал.
Если кому-то нужны видеокарты - то для этого есть QuadroPlex
Ну и кому нужна GUDA? Тем кто специально для сортировок будет NVIDIA покупать?Если бы хотели писать для всех, а не устраивать рекламную паузу, то использовали бы OpenCl
>Ну и кому нужна GUDA? Тем кто специально для сортировок будет NVIDIA
>покупать?
>
>Если бы хотели писать для всех, а не устраивать рекламную паузу, то
>использовали бы OpenClА есть иной вариант при работе с Double Precision??? Расскажите??
И что значит писать для всех?? Оно для всех написано, использует то, что удобно автору и то, что предназначено для работы 24x7, а не для обычных игровых карточек.
>>Ну и кому нужна GUDA? Тем кто специально для сортировок будет NVIDIA
>>покупать?
>>
>>Если бы хотели писать для всех, а не устраивать рекламную паузу, то
>>использовали бы OpenCl
>
>А есть иной вариант при работе с Double Precision??? Расскажите??
>И что значит писать для всех?? Оно для всех написано, использует то,
>что удобно автору и то, что предназначено для работы 24x7, а
>не для обычных игровых карточек.С Double Precision это только Тесла, на обычных картах вроде как нельзя было.
Можно, надо только смотреть серию. А вот с ATI и OpenCL проблемы с DP.
А откуда на обычных GeForce взялся Double Precision ?Это прерогатива Tesla.
>Ну и кому нужна GUDA? Тем кто специально для сортировок будет NVIDIA покупать?Мне вот нужна для обсчета молекулярной динамики. Замечательная вещь за разумную цену, тока на ней пока что не так много вещей реализовано.
>Ну и кому нужна GUDA? Тем кто специально для сортировок будет NVIDIA
>покупать?Кроме простых графических карт еще Тесла есть. Для многих задач покупают и будут покупать.
А есть вообще Тесла девайс в формате 1U
http://www.servershop.ru/detail_14950.htm
>>Ну и кому нужна GUDA? Тем кто специально для сортировок будет NVIDIA
>>покупать?
>
>Кроме простых графических карт еще Тесла есть. Для многих задач покупают и
>будут покупать.
>А есть вообще Тесла девайс в формате 1U
>http://www.servershop.ru/detail_14950.htmЭто S серия, для неё ещё нужен сервак. Есть более элегантные решения в 1U сервер + 4GPU.
>Это S серия, для неё ещё нужен сервак. Есть более элегантные решения
>в 1U сервер + 4GPU.Кому нужно, гугл в помощь, я привел одну ссылку как качественное доказательство, что подобный класс железяк существует и кому то реально нужен, учитывая цену:)
Плюс кому то 4GPU может и мало быть.
Когда CUDA появился? А когда OpenCL? Вот.
Это всё равно что возмущаться "зачем новый плеер поддерживает VDPAU, которому больше года, когда вот уже 2 месяца есть VAAPI"
>Ну и кому нужна GUDA?У меня есть аж две программы, которые его используют и выдают результата в 10 раз больше в секунду, чем 2-ядерный процессор.
В том году была новость, как какой-то немецкий универ,
потратил на вычислительные кластер на 295 GTX, всего 300.000 EUR,
вместо 2.000.000 планируемых на обычных Зионах иль Оптеронах
>В том году была новость, как какой-то немецкий универ,
>потратил на вычислительные кластер на 295 GTX, всего 300.000 EUR,
>вместо 2.000.000 планируемых на обычных Зионах иль ОптеронахА теперь прикиньте ту же новость, но в РФ :)
>>В том году была новость, как какой-то немецкий универ,
>>потратил на вычислительные кластер на 295 GTX, всего 300.000 EUR,
>>вместо 2.000.000 планируемых на обычных Зионах иль Оптеронах
>
>А теперь прикиньте ту же новость, но в РФ :)Российский университет пикотехнологий и темной материи,
затратил на вычислительные кластер 10.000.000 EUR
состоящий из 5 нод, в каждом по два процессора Intel Celeron и 2 Gb RAM :)
То ж вроде не совсем кластер -- они томограф http://www.opennet.me/opennews/art.shtml?num=16228 делали, в один корпус много нвидий поставили и заставили срезы считать. Под одну задачу. Иле я не про то?
>То ж вроде не совсем кластер -- они томограф http://www.opennet.me/opennews/art.shtml?num=16228 делали, в
>один корпус много нвидий поставили и заставили срезы считать. Под одну
>задачу. Иле я не про то?В топе-500 многие компы создавались под одну задачу.
>PS: Гм? http://www.opennet.me/opennews/art.shtml?num=5702Да, да, да,.... у меня даже один раз заработало.
> у меня даже один раз заработалоЭто потому что CUDA не было. Без него GPGPU нужно настраивать для каждой видеокарты индивидуально.
Чего все так на эи GPU подсели, все равно ведь нужен 10 ядерный проц к ним иначе толку мало будет, нехорошая тенденция однако.