реклама на сайте
подробности

 
 
2 страниц V  < 1 2  
Reply to this topicStart new topic
> Производительность современных ПЛИС, Ресурсы реализации MACs
DmitryR
сообщение Jul 25 2008, 10:11
Сообщение #16


Профессионал
*****

Группа: Свой
Сообщений: 1 535
Регистрация: 20-02-05
Из: Siegen
Пользователь №: 2 770



Цитата(OldDSPer @ Jul 25 2008, 13:52) *
Поинтересуюсь возможностью понизить сложность задачи разбиением устройства на структуру устройств.

Это вам, скорее всего, ничего не даст: несмотря на то, что часто самые передовые (большие) ПЛИС стоят дороже, чем две поменьше каждая, но в сумме больше - эта экономия потом съедается на проектировании. Разве что вот вам надо сейчас, немедленно выпустить устройство, и нет времени ждать этот емкий пятый Виртекс или четвертый Стратикс. Хотя, как говорилось, можно пробовать разгонять до 400-500 МГц и укладываться в выпускаемые чипы. Можно делать плату с расчетом на миграцию (технология, когда на одну площадку PCB можно впаять чипы разной емкости с одинаковым корпусом): для начала, для отладки впаять туда существующий чип поменьше, а по выходу необходимых сделать еще партию. Stratix-IV также умеет мигрироваться со Stratix-III.
Go to the top of the page
 
+Quote Post
Stanislav
сообщение Jul 25 2008, 15:46
Сообщение #17


Гуру
******

Группа: Свой
Сообщений: 4 363
Регистрация: 13-05-05
Из: Москва
Пользователь №: 4 987



Цитата(DmitryR @ Jul 25 2008, 11:06) *
Я объясню, почему плохо подходят в моем понимании. Обработка сигналов нужна обычно зачем? Сделать коммуникационное устройство...
Э-мм... А Вы в этом уверены?

Цитата(DmitryR @ Jul 25 2008, 11:06) *
...То есть, в подавляющем большинстве случаев, микросхему. В оставшихся случаях - мелкосерийное устройство на FPGA. В первом случае FPGA еще используется для прототипирования, чтобы продемонстрировать реализуемость выбранного DSP алгоритма в HDL и потом этот HDL перенести в ASIC.
Ничего не понял.
Стало быть, обработка сигналов нужна для того, чтобы сделать коммуникационное устройство, то есть микросхему, верно?

Цитата(DmitryR @ Jul 25 2008, 11:06) *
...В свете вышесказанного попытка применить GPU означает что? Сделать плату, на которой будет этот GPU, его сверхбыстрая память, еще все же будет несложная FPGA, которая будет захватывать данные от источника сигнала (АЦП) и передавать на PCI-E мост (так как PCI-E это единственный интерфейс GPU). Да, BOM этого всего может оказаться дешевле одной большой FPGA, но во что выльется разработка? И естественно, ни о какой серийности говорить не придется. А так стоит один кристалл, получает данные сам, сам считает и сам отправляет дальше. С учетом сложности разработки будет гораздо дешевле GPU. Надо сделать много - выпустили ASIC, он будет стоить еще дешевле.
Не правильно Вы меня поняли. sad.gif
Я предлагал не разрабатывать устройство с GPU самостоятельно, а использовать уже готовые системы, которые можно купить за умеренные деньги.
Тем более, что "плату" сейчас сделать не представляется возможным - на чипы нет открытых доков.

Цитата(DmitryR @ Jul 25 2008, 11:06) *
...Поэтому GPU хороша в одном случае: когда данные надо все равно завести в компьютер и посчитать. Что случается реально нечасто, и даже в этом случае есть экономическая тонкость: сделав приблуду к серийной GPU (плату, которая ваш сигнал заведет в компьютер), вы львиную долю денег отдадите производителю GPU. А сделав плату на FPGA - заработаете эти деньги сами.
Неверно.
Вероятно, Вам следует ознакомиться со спецификацией PCI-E. Для создания полноценной системы обработки/хранения данных из обычного компьютера, который целиком будет дешевле даже одной микросхемы "старшей" FPGA, потребуется только АЦП с тем же интерфейсом - PCI-E, то есть небольшая и сравнительно недорогая в разработке карточка. smile.gif
Или даже готовый АЦП-шный блок, прикрученный к быстрому интерфейсу, типа HS USB или Ethernet.

Цитата(DmitryR @ Jul 25 2008, 11:06) *
...В FPGA могут одновременно использоваться все умножители, что там есть. В свежеобъявленном Stratix-IV 1300 штук максимум, и частота там будет уже повыше, мегагерц до шестисот примерно. В реальных микросхемах, которые можно купить немедленно - около полутысячи или чуть больше.
Это, конечно, серьёзно. Скажите, а КИХ-фильтр с длиной, равной количеству умножителей, работающий на тех же 450 МГц, создать реально?
Без подколки спрашиваю - самому такие штуки делать не доводилось.

Цитата(DmitryR @ Jul 25 2008, 11:06) *
...Я вообще не в курсе - я не алгоритмист wink.gif. Задачу же не я ставил, я только обсуждаю ее технический аспект. Но по теме - в Virtex-5 умножители 18*25, так что можно данные тащить 25 бит и использовать 18-бит коэффиценты. Или наоборот. Мы расчитывали фильтры длиной 512 - 18*18 бит хватало.
А кто-нибудь этот Virtex-5 живьём видел?
Собственно, вопрос мой был о том, достаточно ли точности в 16 бит для фильтра аж в 7000 тапов? Судя по ответу автора темы, достаточно. smile.gif

Цитата(yes @ Jul 25 2008, 13:13) *
а документация на эти GPU и доступ к ним? или предполагается использовать готовые видеокарты?
мне на будущее хотелось бы понять - насколько реально такое решение
Доков на сами чипы, как я и писал, мало. Но бесплатная среда разработки софта уже появилась, посмотрите здесь:
http://www.nvidia.com/object/cuda_home.html#
Ещё полезно почитать форумы Nvidia, там есть ответы на многие вопросы:
http://forums.nvidia.com/index.php?showforum=62

Цитата(yes @ Jul 25 2008, 13:13) *
...а если свою плату с GPU делать - там наверняка широченная шина памяти, то есть камней надо несколько

если инженеру с зарплатой в несколько к$ придется "хачить" GPU или какие-то драйвера к видеокарте дольше месяца - то неизвестно, что дешевле
Об этом не может быть и речи...


--------------------
Самонадеянность слепа. Сомнения - спутник разума. (с)
Go to the top of the page
 
+Quote Post
yes
сообщение Jul 25 2008, 15:57
Сообщение #18


Гуру
******

Группа: Свой
Сообщений: 2 198
Регистрация: 23-12-04
Пользователь №: 1 640



Цитата(Stanislav @ Jul 25 2008, 19:46) *
Это, конечно, серьёзно. Скажите, а КИХ-фильтр с длиной, равной количеству умножителей, работающий на тех же 450 МГц, создать реально?
Без подколки спрашиваю - самому такие штуки делать не доводилось.

А кто-нибудь этот Virtex-5 живьём видел?
Собственно, вопрос мой был о том, достаточно ли точности в 16 бит для фильтра аж в 7000 тапов. Судя по ответу автора темы, достаточно. smile.gif


да - реально, в КИХ фильтр регистров можно насовать сколько угодно - этим и пользуются. У ксайлинса есть апноты специальные, где объясняется как этого достичь. там же и интерконнект между DSP блоками специальный.
то есть из абстрактного Verilog кода получается МГц ~200, а если специально под архитектуру затачивать то 450 можно (по крайней мере по вертикальной полосе DSP блоков)

продаются V5 давно. мы от них отказались только из-за плохой (на тот момент) софтовой поддержки
видел на кит-ах
Go to the top of the page
 
+Quote Post
Stanislav
сообщение Jul 25 2008, 16:19
Сообщение #19


Гуру
******

Группа: Свой
Сообщений: 4 363
Регистрация: 13-05-05
Из: Москва
Пользователь №: 4 987



Цитата(yes @ Jul 25 2008, 19:57) *
да - реально, в КИХ фильтр регистров можно насовать сколько угодно - этим и пользуются. У ксайлинса есть апноты специальные, где объясняется как этого достичь. там же и интерконнект между DSP блоками специальный.
то есть из абстрактного Verilog кода получается МГц ~200, а если специально под архитектуру затачивать то 450 можно (по крайней мере по вертикальной полосе DSP блоков)
Спасибо за инфу. smile.gif

Цитата(yes @ Jul 25 2008, 13:13) *
...продаются V5 давно. мы от них отказались только из-за плохой (на тот момент) софтовой поддержки
видел на кит-ах
Верно, совсем забыл. У нас на работе тоже кит какой-то с Virtex-5 валяется, причём давно...


--------------------
Самонадеянность слепа. Сомнения - спутник разума. (с)
Go to the top of the page
 
+Quote Post
syoma
сообщение Jul 25 2008, 16:59
Сообщение #20


Профессионал
*****

Группа: Свой
Сообщений: 1 817
Регистрация: 14-02-07
Из: наших, которые работают за бугром
Пользователь №: 25 368



Цитата
Возможно ли на современных ПЛИС реализовать параллельно-последовательные цепочки умножения с суммированием (пусть это будет одна цепочка), если таких MAC-операций нужно 7000 штук.
Умножители 16х16, а накопители имеют по 40 бит.
Тактовая частота умножений = 30 МГц

Кстати в зависимости от задачи можно и без умножителей обойтись.
Например у Xilinx(не знаю как у Альтеры) FIR фильтр можно сделать на распределенной арифметике http://www.xilinx.com/products/ipcenter/FIR_Compiler.htm
При этом умножителей он хавать вообще не будет. И фильтры можно строить вообще по параллельной архитектуре, то есть результат выдается на следующий такт. Например фильтр с 256 коэфициентами может работать на 150МГц при этом имея такую же частоту семплирования. (то есть 150Мх256= 38 GMACs! в эквиваленте)
Производительность таких фильтров по заявлениям тех же Xilinx просто умопомрачительная. И помещается их в кристал достаточно много, потому что пользователь в каждом случае может выбрать парралельную или стандартную последовательную реализацию или их комбинацию. При этом возможно спокойно выбирать между занимаемыми ресурсами и производительностью.
PS. Возможно я загнул немного, но 7 GMACs точно видел.

Вдогонку.
По вашим требованиям выходит, что нужно 7000*30Мгц=210 BMACs. (моллиардов операций умножения в секунду)
Вот тут Прикрепленный файл  SKMBT_C25008072518540.pdf ( 325.16 килобайт ) Кол-во скачиваний: 252
Xilinx говорит, что даже Virtex 2 спокойно даст 747 BMACs... Правда на фильтрах... И умножение 8х8... И 3/4 этой производительности делается на распределенной арифметике...может и не даст...

Так что, если вам действительно нужны умножители, то это все до лампочки.
Go to the top of the page
 
+Quote Post
OldDSPer
сообщение Jul 28 2008, 05:52
Сообщение #21





Группа: Новичок
Сообщений: 4
Регистрация: 24-07-08
Из: С-Пб, Фрунзенский район
Пользователь №: 39 176



Цитата(syoma @ Jul 25 2008, 20:59) *
Кстати в зависимости от задачи можно и без умножителей обойтись.
Например у Xilinx(не знаю как у Альтеры) FIR фильтр можно сделать на распределенной арифметике


Волею судеб начинать придётся с семейства Stratix II. Можно качественно сопоставить производительность этого ПЛИС с Xilinx?
Go to the top of the page
 
+Quote Post
sazh
сообщение Jul 28 2008, 09:52
Сообщение #22


Гуру
******

Группа: Свой
Сообщений: 2 435
Регистрация: 6-10-04
Из: Петербург
Пользователь №: 804



Цитата(OldDSPer @ Jul 28 2008, 09:52) *
Волею судеб начинать придётся с семейства Stratix II. Можно качественно сопоставить производительность этого ПЛИС с Xilinx?


Ту наверно
http://www.altera.ru/cgi-bin/go?66
Go to the top of the page
 
+Quote Post
yes
сообщение Aug 26 2008, 11:32
Сообщение #23


Гуру
******

Группа: Свой
Сообщений: 2 198
Регистрация: 23-12-04
Пользователь №: 1 640



Цитата(sazh @ Jul 28 2008, 13:52) *


только не забываем, что эта инфа от продавца Альтер smile.gif

по моим наблюдениям, Альтера все время находится в роли догоняющего и кристаллы в общем уступают

но более удобный софт (что весьма важно)

по поводу более высокой эфективности альтеровского синтеза+P&R - тоже сомневаюсь (но может не научился готовить). но ксайлинс P&R требует для больших кристаллов танцев с бубном типа планэхеда

----------

в настоящее время у ксайлинса есть Spartan-3A DSP - дешевая версия с полноценными DSP блоками

V5 SX имеют до 1000 встроенных DSP (18х18 48асс) блоков

ну и жрут ксайлинсы поменьше
Go to the top of the page
 
+Quote Post
Builder
сообщение Aug 27 2008, 09:02
Сообщение #24


iBuilder©
****

Группа: Свой
Сообщений: 519
Регистрация: 14-07-04
Из: Минск
Пользователь №: 322



Цитата(OldDSPer @ Jul 25 2008, 12:52) *
Возможно ли на современных ПЛИС реализовать параллельно-последовательные цепочки умножения с суммированием (пусть это будет одна цепочка), если таких MAC-операций нужно 7000 штук.
Умножители 16х16, а накопители имеют по 40 бит.
Тактовая частота умножений = 30 МГц

Благодарю увжаемый цех специалистов по ПЛИС.
Из ответов я понял, что мои запросы находятся на передовых рубежах нынешнего состояния техники. Поинтересуюсь возможностью понизить сложность задачи разбиением устройства на структуру устройств.
Вслед доп.вопросам о точности вычислений укажу, что она была выверена на MatLab и найдена достаточной.


Только прочитал, решил высказаться.
Я не совсем понял, зачем Вам начали однозначно предлагать самы толстые и дорогие кристалы.
Вам нужно всего 30 МГц, у Вас по задаче не получиться работать на повышенной частоте, кратно 30?
Что-б уменьшить требования к количеству умножителей? Если получиться, то не обязательно будет
брать большушую и дорогую микруху.
Но тут следует сделать пристрелку по структуре проекта, а тут уж никто кроме Вас этого не сделает.
Go to the top of the page
 
+Quote Post
DmitryR
сообщение Aug 27 2008, 10:06
Сообщение #25


Профессионал
*****

Группа: Свой
Сообщений: 1 535
Регистрация: 20-02-05
Из: Siegen
Пользователь №: 2 770



Цитата(Builder @ Aug 27 2008, 13:02) *
Я не совсем понял, зачем Вам начали однозначно предлагать самы толстые и дорогие кристалы.
Вам нужно всего 30 МГц, у Вас по задаче не получиться работать на повышенной частоте, кратно 30
Прочтите сначала - надо 7000 умножителей, соответственно предлагается взять 1000 и работать на семикратной частоте, то есть 210MHz.
Go to the top of the page
 
+Quote Post
sheh
сообщение Aug 27 2008, 15:48
Сообщение #26


Частый гость
**

Группа: Участник
Сообщений: 122
Регистрация: 13-09-06
Пользователь №: 20 353



Цитата(DmitryR @ Aug 27 2008, 14:06) *
Прочтите сначала - надо 7000 умножителей, соответственно предлагается взять 1000 и работать на семикратной частоте, то есть 210MHz.


Кстати, если это устройство КИХ фильтр и он имеет симметричные коэффициенты, то можно использовать структуру с пре-сумматорами, что позволит сократить количество коэффициентов (умножений) в 2 раза.
Гдето у xilinx был xapp на эту тему.
И к томуже DSP в SpartanA_DSP имеет соответствующую структуру, там по входу умножителя стоит сумматор.
Go to the top of the page
 
+Quote Post
Builder
сообщение Aug 28 2008, 07:26
Сообщение #27


iBuilder©
****

Группа: Свой
Сообщений: 519
Регистрация: 14-07-04
Из: Минск
Пользователь №: 322



Цитата(DmitryR @ Aug 27 2008, 13:06) *
Прочтите сначала - надо 7000 умножителей, соответственно предлагается взять 1000 и работать на семикратной частоте, то есть 210MHz.

Мда, точно, не внимательно прочитал.
Но всёравно, тут нужно брать и делать тестовый проектик, комбинируя встроенные умножители с умножителями на распределённой логике + логика проекта про которую знает только разработчик.
И по результатам этой прикидки смотреть что нужно, выбирать чип.
По крайней мере сам так бы делал.
Go to the top of the page
 
+Quote Post
rv3dll(lex)
сообщение Aug 30 2008, 08:26
Сообщение #28


Полное ничтожество
*****

Группа: Banned
Сообщений: 1 991
Регистрация: 20-03-07
Из: Коломна
Пользователь №: 26 354



если юбрать виртекс 4 то его дсп слайсы при развёрнутой логике вокруг подставление коэфициена и прочее рулят до 200 мегациклов
Go to the top of the page
 
+Quote Post
yes
сообщение Sep 4 2008, 14:34
Сообщение #29


Гуру
******

Группа: Свой
Сообщений: 2 198
Регистрация: 23-12-04
Пользователь №: 1 640



Цитата(rv3dll(lex) @ Aug 30 2008, 12:26) *
если юбрать виртекс 4 то его дсп слайсы при развёрнутой логике вокруг подставление коэфициена и прочее рулят до 200 мегациклов


а если пользоваться BRAM-aми и dedicated routing к DSP?

мне не было нужды реализовывать классический фильтр с рекомендованой ксайлинсом архитектурой (они обещают 400-500 и выше, ну и синтез вроде бы так же)
а 200 МГц получается даже из "платформонезависимого HDL" причем не только КИХ, но и всякие звенья БИХ фильтров (их в дедикэйтед роутинг вообще засунуть нельзя)
Go to the top of the page
 
+Quote Post

2 страниц V  < 1 2
Reply to this topicStart new topic
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 


RSS Текстовая версия Сейчас: 15th August 2025 - 22:09
Рейтинг@Mail.ru


Страница сгенерированна за 0.01497 секунд с 7
ELECTRONIX ©2004-2016