реклама на сайте
подробности

 
 
4 страниц V  < 1 2 3 4 >  
Reply to this topicStart new topic
> Реконфигурируемый суперкомьютер на FPGA из Таганрога
MrYuran
сообщение Feb 16 2009, 12:51
Сообщение #16


Беспросветный оптимист
******

Группа: Свой
Сообщений: 4 640
Регистрация: 26-12-07
Из: Н.Новгород
Пользователь №: 33 646



Цитата(vik0 @ Feb 16 2009, 15:44) *
Вы видели "кит" по ссылке HardJoker-а? Хочу я посмотреть на студента с этим "китом" и на его "экзампл" 07.gif

Всё равно, это для тех, кто хочет догнать.
А наши хотят "наискосок" срезать...


--------------------
Программирование делится на системное и бессистемное. ©Моё :)
— а для кого-то БГ — это Bill Gilbert =)
Go to the top of the page
 
+Quote Post
jojo
сообщение Feb 16 2009, 14:54
Сообщение #17


Знающий
****

Группа: Свой
Сообщений: 574
Регистрация: 9-10-04
Из: FPGA-city
Пользователь №: 827



А, вот оно:
http://parallel.ru/FPGA/publications.html

http://www.google.ru/search?hl=ru&neww...mp;aq=f&oq=

А что, нормальные машинки. Обычные ускорители на ПЛИС, только с заранее продуманными соединениями по LVDS.

Я только не понимаю, почему процессоры сильно уступают на вещественных вычислениях. Расширения SSE использовались? 64-битная ос и ручная оптимизация кода на ассемблере использовались?

Печатные платы после изготовления теряют реконфигурируемость (Р), тем самым ограничивая показатель Р для произвольной задачи.
Доступность внутри ПЛИС данных растет с увеличением скорости интерфейсов, поэтому лучше делать на LXT и т.п.
Памяти желательно побольше и к каждой ПЛИС.

Я не понимаю, в чем здесь вообще может быть новизна, в этой теме? Каждый, кому не все равно, может разработать такой комплекс, затратив примерно 5-10 человеко-лет (как мы ранее выяснили в другой ветке на форуме) и 1 млн ам долл.

Железо тривиально, методы программирования тривиальны. Важен факт наличия рабочего ускорителя вычислений - да, важен.

Чистое железо как раз лучше без методологий и графических редакторов, а в верилоге все нормально делается. Хотя, конечно, ISE из командной строки вполне можно вызвать и пересобрать проект из пользовательской программы.

Даже сам выбор ПЛИС - Xilinx. Ну почему именно Xilinx?
Обратите внимание на тактовую частоту - 250 МГц. Использованы схемы с малой задержкой в тактах? Прошивка неудачно ложится на структуры ПЛИС при высокой занятости кристалла?
Go to the top of the page
 
+Quote Post
gosha
сообщение Feb 16 2009, 14:55
Сообщение #18


Местный
***

Группа: Свой
Сообщений: 216
Регистрация: 15-06-04
Из: Менделеево
Пользователь №: 30



Цитата(mse @ Feb 16 2009, 11:08) *
Суперкомпутер, это настолько вещь в себе, что с совместимостью можно не париться. Особенно, если он будет заточен под узкую задачу. Ну, там, ядрёный взрыв считать, погоду или гидро-газодинамику.



М.б. Но делают их на power_pc, intel itanium ...

Пример несовместимого суперкомпьютера в студию.
Go to the top of the page
 
+Quote Post
mse
сообщение Feb 17 2009, 08:20
Сообщение #19


Знающий
****

Группа: Свой
Сообщений: 709
Регистрация: 3-05-05
Пользователь №: 4 693



Цитата(gosha @ Feb 16 2009, 17:55) *
М.б. Но делают их на power_pc, intel itanium ...

Пример несовместимого суперкомпьютера в студию.

На топовой видюхе.
Go to the top of the page
 
+Quote Post
khach
сообщение Feb 17 2009, 08:47
Сообщение #20


Гуру
******

Группа: Свой
Сообщений: 3 439
Регистрация: 29-12-04
Пользователь №: 1 741



Напихиваем 3 таких карты в материнку с 3xPCIe раземами и наслаждаемся терафлопсам.
http://ati.amd.com/technology/streamcomput...tream_9250.html
А ожидаются скоро AMD FireStream™ 9270
Конечно приходиться ломать все привычки программиста
Go to the top of the page
 
+Quote Post
MrYuran
сообщение Feb 17 2009, 08:51
Сообщение #21


Беспросветный оптимист
******

Группа: Свой
Сообщений: 4 640
Регистрация: 26-12-07
Из: Н.Новгород
Пользователь №: 33 646



Цитата(khach @ Feb 17 2009, 11:47) *
Напихиваем 3 таких карты в материнку с 3xPCIe раземами и наслаждаемся терафлопсам.

Сеня, про зайцев - неактуально! (С)
флопсы давно уже петами меряют, а не терами


--------------------
Программирование делится на системное и бессистемное. ©Моё :)
— а для кого-то БГ — это Bill Gilbert =)
Go to the top of the page
 
+Quote Post
khach
сообщение Feb 17 2009, 09:05
Сообщение #22


Гуру
******

Группа: Свой
Сообщений: 3 439
Регистрация: 29-12-04
Пользователь №: 1 741



Цитата(MrYuran @ Feb 17 2009, 10:51) *
Сеня, про зайцев - неактуально! (С)
флопсы давно уже петами меряют, а не терами

Актуально и очень, когда они у тебя под столом стоят, а не петафлопсы на другом континетне, куда прорываться на счет приходиться как на ЕСку или БЭСМ6 в студенческие времена. Хотя если бюджет резиновый то набить тысячью такимх ящиков комнату и повязать их гигабитным эзернетом- вот и петафлопс с копейками. Вот только софта под такую архитектуру кластера пока ненаписали. НО в течении года- двух наверно появится- тогда кластера GPU-CPU-ethernet станут актуальны.
А вообще в архитектуре суперкомпов сейчас имеет смысл плясать от решаемой задачи. Если это FEM, то соптимизировать одно процессорное устройство под физику узла меша очень пользительно. Т.е число акумуляторов равно числу физических переменных сетки, если это квантмех- есть аппаратный интегратор для узла по всему пространству меша итд. Скорость счета поднимается в разы, в виртекс влазит больше процессоров итд.
Go to the top of the page
 
+Quote Post
dch
сообщение Feb 17 2009, 10:03
Сообщение #23


Профессионал
*****

Группа: Участник
Сообщений: 1 179
Регистрация: 15-09-04
Из: 141070 г. Королев МО, улица Горького 39-121
Пользователь №: 661



Цитата(mikeT @ Feb 15 2009, 00:53) *
Я работал в достаточно серьезной западной конторе, которая занималась

сотрудники западных фирм активно применяют фальшивые документы, дипломы - это к сожалению только одно что можно с полной уверенностью сказать о них. Проблемы многих на пост советском пространстве начались с попытки взаимодействия с западными "коллегами". У меня вобще складывается впечатление что большинство сотрудников западных фирм, прежде всего европейских это просто пойманные на краже.

Цитата(mikeT @ Feb 15 2009, 01:32) *
http://parallel.ru/FPGA/papers/rmvs.pdf - это книжка та самая

вот эта книжка
"«Реконфигурируемые мультиконвейерные вычислительные структуры» (Каляев И.А., Левин И.И., Семерников Е.А., Шмойлов В.И.", и так далее ?
Go to the top of the page
 
+Quote Post
mikeT
сообщение Feb 17 2009, 10:59
Сообщение #24


Участник
*

Группа: Участник
Сообщений: 73
Регистрация: 6-02-08
Из: Новосибирск
Пользователь №: 34 789



Цитата(khach @ Feb 17 2009, 15:05) *
А вообще в архитектуре суперкомпов сейчас имеет смысл плясать от решаемой задачи. Если это FEM, то соптимизировать одно процессорное устройство под физику узла меша очень пользительно. Т.е число акумуляторов равно числу физических переменных сетки, если это квантмех- есть аппаратный интегратор для узла по всему пространству меша итд. Скорость счета поднимается в разы, в виртекс влазит больше процессоров итд.

Именно в этом и весь цимес rolleyes.gif
Кстати, существуют ли на данный момент FPGA с ядрами FPU (Floating-Point Unit)? По аналогии с DSP блоками в существующих FGPA.
Под ядром я в данном случае понимаю "тупой" блок умножителя и/или сумматора по стандарту IEEE-754-85.

Сообщение отредактировал mikeT - Feb 17 2009, 11:03
Go to the top of the page
 
+Quote Post
DmitryR
сообщение Feb 17 2009, 12:20
Сообщение #25


Профессионал
*****

Группа: Свой
Сообщений: 1 535
Регистрация: 20-02-05
Из: Siegen
Пользователь №: 2 770



Нет, потому что в FPGA IEEE-754-85 и так легко реализуется на нескольких умножителях с небольшим количеством управляющей логики, нет смысла сращивать умножители в менее универсальную структуру.
Go to the top of the page
 
+Quote Post
mikeT
сообщение Feb 17 2009, 12:54
Сообщение #26


Участник
*

Группа: Участник
Сообщений: 73
Регистрация: 6-02-08
Из: Новосибирск
Пользователь №: 34 789



Цитата(DmitryR @ Feb 17 2009, 18:20) *
Нет, потому что в FPGA IEEE-754-85 и так легко реализуется на нескольких умножителях с небольшим количеством управляющей логики, нет смысла сращивать умножители в менее универсальную структуру.

К сожалению, Вы неправы:

1. ресурсы на реализацию IEEE-754-85 требуются довольно значительные, например смотрим (с сайта Альтеры) сколько ресусров требуется для Stratix III
NIOS-II/f - 1100 ALUTs
NIOS-II/s - 770 ALUTs

alt_fp_add_sub - 1939 (!) ALUTs (double)
alt_fp_mult - "всего" 296 ALUTs (double)

У Xilinx примерно тоже самое, у сторонних разработчиков IP-ядер тоже не лучше.
+ к этому добавьте то, что скорость работы примерно на порядок меньше чем у "железных" процессоров (FPU блок)

2. Проблема эта "у них" (за бугром) осознана, отрефлексирована, причем в первую очередь именно людьми тесно связанными с HPC (High-Performance Computing) и по сути "промышленности" выдано "ТЗ", которое в двух словах звучит примерно так "сделайте нам структуры с FP ядрами, чтобы мы могли быстро считать".
Скорость вырастет заметно, как за счет того что ядро стало монолитным, так и за счет сокращения потерь на роутинг (шины 64 битные будут уже заранее упакованы).
Ну в общем см. "железные" решения типа той -же CUDA - и сравнивай скорость, хотя это конечно грубая прикидка.

пара ссылок в тему:
http://www.pldesignline.com/howto/202200714
http://www.hpcwire.com/features/17896629.html?page=2

Сообщение отредактировал mikeT - Feb 17 2009, 13:04
Go to the top of the page
 
+Quote Post
Shtirlits
сообщение Feb 18 2009, 05:49
Сообщение #27


Знающий
****

Группа: Свой
Сообщений: 845
Регистрация: 18-10-04
Из: Pereslavl-Zalessky, Russian Federation
Пользователь №: 905



Мне удивительно, но тема ускорителей каких-либо вычислений на FPGA время от времени возникает.
Раскажу одну историю:

Задача что-то обрабатывает с Фурье. Считает на 2-х процессорном opteron 2.2GHz секунд 50.
Задача переписывается на другом языке для работы в кластере. Ускорение примерно N/2 раз. Где N-количество узлов кластера. Ф уложиться надо секунд в 5-6.
Далее эту задачу решают Таганрог и я.
Чтобы понять, как и что нужно считать, переписываю задачу на Си. Ничего толком не меняю, только исправляю ошибки и кодирую с учетом знания о кэше и его размере. Задача считается 8 секунд на одном процессоре.
Меняю алгоритм на блочный, с размером блока, который бы поместился в FPGA и уж точно поместится в кэш процессора, специальными библиотеками, типа fftw не пользуюсь. На одном процессоре 3 секунды. По времени уложились.
Но поскольку задача в том, чтобы сделать именно ускоритель и именно на FPGA, то делается ускоритель на pci stratix dev kit. В итоге, задача считается 0.1 секунды и упирается в шину PCIx, а если бы не уперлось в шину, то сразу уперлось бы в скорость памяти stratix, а чуть дальше в умножители.
Таганрог вроде бы тоже задачу решил, но время они считают после загрузки данных внутрь.
Еще раз, Данные сначала как-то загружаются, а вот потом они быстро считают. И потом данные опять как-то выгружаются.
На таганрогской установке я не нашел быстрого интерфейса между сетью FPGA и чем-то внешним.
Да и на любой FPGA-шной плате таких интерфейсов, дающих шанс ускорителю побороть процессор общего назначения, нет. Почему? Потому что на FPGA мало ножек или трансиверов. Узкое горло. Там широкое горло только одно - распределенная память. Я говорю про топовые stratix и virtex.
Поэтому остаются только задачи типа малоразрядного Фурье, криптоанализ и т.п. Ни о каких плавающих точках речь идти не может.
Я думаю, что таганрогские ускорители нужно использовать именно для криптоанализа, потому что данных при этом поступает мало, а работать с ними нужно много.

Зачем нужны FPGA ?
Они нужны там, где важна быстрая реакция. Вот никакий nehalem не сможет среагировать за 10nS на внешнее событие.
Коммутаторы можно делать, военное что-нибудь...

Удивительно, что про ускорители на FPGA заходит еще речь.
Go to the top of the page
 
+Quote Post
mikeT
сообщение Feb 18 2009, 07:51
Сообщение #28


Участник
*

Группа: Участник
Сообщений: 73
Регистрация: 6-02-08
Из: Новосибирск
Пользователь №: 34 789



Цитата(Shtirlits @ Feb 18 2009, 11:49) *
Мне удивительно, но тема ускорителей каких-либо вычислений на FPGA время от времени возникает.
...
Да и на любой FPGA-шной плате таких интерфейсов, дающих шанс ускорителю побороть процессор общего назначения, нет.
....
Поэтому остаются только задачи типа малоразрядного Фурье, криптоанализ и т.п. Ни о каких плавающих точках речь идти не может.
...
Удивительно, что про ускорители на FPGA заходит еще речь.


Как говорится, "а мужики то не знают" biggrin.gif
Напишите людям из консорциума http://www.openfpga.org/ и людям, курирующим проект RAMP (http://ramp.eecs.berkeley.edu/index.php?index), чтобы они бросали возиться с "ускорителями на FPGA" и сэкономили кучу миллиардов долларов.

Если по существу:
1. Посмотрите по этим ссылкам состав участников (как организации и концерны, так и люди), спонсоров
2. Посмотрите, что уже РЕАЛЬНО сделано и сколько денег вложено. (эти ссылки - малая часть, верхушка айсберга)
(!) отдельно посмотрите, что "мужики то и не планируют сворачивать разработки"!
3. Посмотрите, какие есть успехи, проблемы и несбывшиеся надежды.

Это не "отсылка к авторитетному дяде" (типа, "а мой папа так говорит!" ), а просто попытка задуматься "если (в частности) Cray, General Electric, Intel, IBM, MIT, Stanford так серьезно роют и/или спонсируют в этом направлении и уже многое нарыли и сделали, то может быть не они такие тупые, а я в вопрос серьезно не вник?"

Возможный ответ "там за бугром идиоты, а мы тут все умные" предлагаю не рассматривать, так как он не конструктивен и, более того, опасен для Росссии.
Go to the top of the page
 
+Quote Post
zzzzzzzz
сообщение Feb 18 2009, 08:01
Сообщение #29


Профессионал
*****

Группа: Свой
Сообщений: 1 724
Регистрация: 1-05-05
Из: Нью Крыжопыль
Пользователь №: 4 641



Цитата(mikeT @ Feb 18 2009, 10:51) *
.....Возможный ответ "там за бугром идиоты, а мы тут все умные" предлагаю не рассматривать, так как он не конструктивен и, более того, опасен для Росссии.
Ну что Вы, идиоты только у нас живут! biggrin.gif
Сам по себе бизнес по продаже суперкомпов - убыточное занятие по определению.
Чаще всего это просто "дутие щёк" и распил госзаказов. Что у них, что и у нас.

Не, суперкомпы нужны, конечно. Несколько штук на всю страну, пока.
А то, что процессор шустрее фпга в разы - очевидно всем.
Суперкомп на фпга можно рассматривать только как промежуточный вариант для разработки нужных ЭйСиКов и отладки алгоритмов. Но, без этого второго шага, первый останется просто развлечением для узкого круга "гениев" за гос. счёт.
Go to the top of the page
 
+Quote Post
XVR
сообщение Feb 18 2009, 08:10
Сообщение #30


Гуру
******

Группа: Свой
Сообщений: 3 123
Регистрация: 7-04-07
Из: Химки
Пользователь №: 26 847



Цитата(mikeT @ Feb 17 2009, 13:59) *
Именно в этом и весь цимес rolleyes.gif
Кстати, существуют ли на данный момент FPGA с ядрами FPU (Floating-Point Unit)? По аналогии с DSP блоками в существующих FGPA.
Под ядром я в данном случае понимаю "тупой" блок умножителя и/или сумматора по стандарту IEEE-754-85.
Не совсем FPU, но есть такая фирма XMOS, выпускает процессор XCore, они его называют SDS (Software Defined Silicon). Попытка сделать нечто вроде FPGA у которой вместо LUT'ов - процессоры (для любителей точных формулировок - это очень упрощенный взгляд)
Go to the top of the page
 
+Quote Post

4 страниц V  < 1 2 3 4 >
Reply to this topicStart new topic
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 


RSS Текстовая версия Сейчас: 18th July 2025 - 12:37
Рейтинг@Mail.ru


Страница сгенерированна за 0.01495 секунд с 7
ELECTRONIX ©2004-2016