Полная версия этой страницы:
Computing FPGA
Mihail Gluhowchenko
Jan 21 2010, 09:48
Здравствуйте уважаемые коллеги.
Меня интересует вопрос нет ли в свободной продаже готовых вычислительных модулей? Что под этим я понимаю.
Это плата с 4-мя FPGA + гигабитный свич + Пакетный или Процессор типа PPC.
RobFPGA
Jan 21 2010, 10:48
Приветствую!
Есть и довольно много. Но Вам надо более конкретно объяснить что вы хотите - какие FPGA сколько памяти и.т.д.
Как пример Nallatech VXS-610™ PowerPC® and dual FPGA Viretx5 плюс два PMC/XMC модуля расширения куда
можно вставить еще два блока FPGA Viretx5 обойдется вам в скромных ~$50K
Ищите - Google Вам в помощь.
Успехов! Rob.
yau111
Jan 21 2010, 11:04
Mihail Gluhowchenko
Jan 21 2010, 11:14
Интересен порядок цен на такие вещи. Нужно повозиться с массивом матриц на пару 10-ков гигабайт целочисленных. Вот и интересно сравнить кластерное решение и вот такой модуль. Конечно на ~50к можно уже серьезную кластерную систему построить так что не устраивает.
Dima_G
Jan 21 2010, 11:21
Цитата(Mihail Gluhowchenko @ Jan 21 2010, 15:14)

Интересен порядок цен на такие вещи. Нужно повозиться с массивом матриц на пару 10-ков гигабайт целочисленных. Вот и интересно сравнить кластерное решение и вот такой модуль. Конечно на ~50к можно уже серьезную кластерную систему построить так что не устраивает.
Тут более актуально не куча FPGA и процессор, а ФПГА и куча памяти (именно, физически куча микросхем памяти) - чтобы можно было поток данных большой принимать / писать.
А иначе заткнется система по пропускной способности памяти
blackfin
Jan 21 2010, 11:38
анатолий
Jan 21 2010, 15:34
Очень важно знать, как задача распараллеливается. Если идеальный параллелизм,
то лучше 4 платы по 1 ПЛИС, чем 1 плата с 4 ПЛИС.
Факт тот, что
1 плата с 1 ПЛИС и десятками мегабайт памяти на 1-2 порядка дешевле,
чем плата с несколькими ПЛИС, т.к. спрос на нее в сотни раз больше.
Платки Avnet в этом плане оптимальные по отношению стоимость - емкость ПЛИС.
dvladim
Jan 21 2010, 19:51
И было бы не лишне знать как задача ложится на GPU. А то OpenCL(CUDA) вам в руки и вперед.
RobFPGA
Jan 21 2010, 21:30
Приветствую!
Решения на базе FPGA естественно дороже чем на базе стандартных CPU поскольку за счет избыточности они позволяют решать определенные задачи значительно эффективней чем CPU! соответственно нужно учитывать то что стоимость качественного программирования систем на FPGA как минимум на порядок дороже чем стандартных CPU.
Успехов! Rob.
Mihail Gluhowchenko
Jan 22 2010, 02:41
Параллелизм просто идеальный как в классических задачах по параллельным вычислениям. Перемножение матриц 10000 х 10000 элементов в каждой, или сравнение таких матриц. CUDA уже работает.
Rob как раз и интересует цена за эту самую абстрактную эффективность. Цена за MIPS.
Цитата(Mihail Gluhowchenko @ Jan 22 2010, 05:41)

Параллелизм просто идеальный как в классических задачах по параллельным вычислениям. Перемножение матриц 10000 х 10000 элементов в каждой, или сравнение таких матриц. CUDA уже работает.
тут есть один момент = у Cuda плавающая точка, а в FPGA плавающая точка будет в разы медленнее. ну сколько Mhz максимум умножитель будет работать в FPGA? 250 где то...
в Tesla умножение будет быстрее происходить.
Mihail Gluhowchenko
Jan 22 2010, 09:09
Матрицы целочисленные если вы обратили внимание. На FPGA такое перемножение очень хорошо ложится в теории.
Mahagam
Jan 22 2010, 09:17
скоростное чудо -
http://www.copacobana.org/взять в аренду

вот только судя по всему - там нет памяти. матрицы негде будет хранить.
кстати, откуда расчёты, что 4 FPGA и только один гигабитный свитч? а не будет ли гигабитный линк - узким местом в такой системе?
Mihail Gluhowchenko
Jan 22 2010, 09:49
Ну не LACP там поднимать. 10G чипы достаточно дороги. Да и если памяти на один FPGA по 4GB должно вполне хватить.
BEE3
http://research.microsoft.com/en-us/projec...e3/default.aspx , ~тысяч 70 USD для обычных покупателей.
Wildstar
http://www.annapmicro.com/blade.htmlhttp://www.annapmicro.com/ws5pci.htmlСвоё такое же можно склепать из проектов отладочных плат FPGA за разумное время.
blackfin
Jan 22 2010, 10:36
Цитата
тут есть один момент = у Cuda плавающая точка, а в FPGA плавающая точка будет в разы медленнее. ну сколько Mhz максимум умножитель будет работать в FPGA? 250 где то...
в Tesla умножение будет быстрее происходить.
Года 3-4 назад до кризиса участвовал в проекте, перемножали разряженную матрицу на вектор, тн свертка. Вся арифметика в double (64 бит). Железо было свое, на Strarix-II c 3 блоками внешней статической и динамической памяти DDR2. В итоге тактовая вычислителя получилась 280 MHz. По результату - на маленьких матрицах время сравнимо с Core2, а чем матрица больше, тем железо сильнее натягивало PC. Сейчас уже деталей не помню.
dvladim
Jan 22 2010, 19:01
Цитата(Mihail Gluhowchenko @ Jan 22 2010, 05:41)

Параллелизм просто идеальный как в классических задачах по параллельным вычислениям. Перемножение матриц 10000 х 10000 элементов в каждой, или сравнение таких матриц. CUDA уже работает.
Если на GPU ложится хорошо, то в одинаковую цену врядли получится сделать лучше на FPGA. Особенно с учетом времени разработки проекта на FPGA.
Цитата(Stas @ Jan 22 2010, 18:43)

...сравнимо с Core2, а чем матрица больше...
FPGA, да будет быстрее чем коре2 перемножает, за счет параллельности. но вот на CUDE FPGA выходит в аутсайд из-за того что FPU в GPU много штук и они еще и работают в разы быстрее из-за того что они железные
Цитата(SFx @ Jan 23 2010, 20:00)

FPGA, да будет быстрее чем коре2 перемножает, за счет параллельности. но вот на CUDE FPGA выходит в аутсайд из-за того что FPU в GPU много штук и они еще и работают в разы быстрее из-за того что они железные
Они все железные.
ПК начинает сильно отставать как только матрица не помещается в кэше. На больших матрицах видели падение производительности до порядка 60 - 30 MMAC (это на CORE 2), в тоже время наше железо на тех же данных показывало 280 ММAC. На малых матрицах производитедьность ПК была немного повыше.
Видимо и FPU в GPU не намного поднимут призводительность матричных вычислений, все упрётся в доступ к данным.
DmitryR
Jan 24 2010, 13:47
Не факт: у GPU память все же может быть намного быстрее, чем у Core2: в полтора раза по мегагерцам и вчетверо по ширине, то есть в шесть раз.
Цитата(Stas @ Jan 24 2010, 16:11)

Видимо и FPU в GPU не намного поднимут производительность матричных вычислений, все упрётся в доступ к данным.
тут как раз проблем нет. у GPU своя память. быстрая, DDR3 и выше даже... другой момент в том как к ней обращаться.
Для просмотра полной версии этой страницы, пожалуйста,
пройдите по ссылке.