реклама на сайте
подробности

 
 
> 100 Ватт - модуль на Kintex UltraScale KU115, Хочу похвастаться
dsmv
сообщение May 26 2018, 22:00
Сообщение #1


Местный
***

Группа: Свой
Сообщений: 451
Регистрация: 6-09-05
Из: Москва
Пользователь №: 8 284



Здравствуйте,

Хочу поделиться результатами эксперимента проверки FMC132P c Kintex UltraScale KU115 в режиме максимальной мощности.
Достигнута длительная работа (больше часа) при стабильной температуре +78 градусов и потребляемой мощности модуля 105 Вт. ПЛИС потребляет меньше, скорее всего около 85 Вт.
Для проверки разработана прошивка ПЛИС. Вид трассировки - на скриншоте.
В ПЛИС реализованы 35 блоков, каждый из них имеет индивидуальное управление и включает в себя 102 DSP и 34 BRAM. Частота работы - 500 МГц. На вход DSP и BRAM поступает псевдослучайная последовательность, результаты работы каждых двух DSP и двух BRAM сравниваются. Это позволяет выявить одиночные ошибки.
Мощность 105 Вт достигнута при включении 22 блоков. Это 2244 DSP (из 5560) и 784 BRAM. При включении 24 блоков температура достигает +82 градусов и я останавливаю работу.
Все блоки объединены в одну цепочку управления и закреплены в своих областях. Цепочка управления включает 8 сигналов данных и опорный тактовый сигнал 100 МГц. Других сигналов управления нет. Это позволило достаточно экономно управлять всеми блоками. Если кому-нибуть нужны компоненты для реализации цепочки - сообщите, поделюсь.
В ПЛИС также размещены два контроллера DDR4 и контроллер PCI Express. Зелёным и жёлтым цветом выделены два блока из 35.
Первоначальные варианты прошивки разводились примерно за 10 часов, после некоторой оптимизации - за 2.5 часа.
В целом эксперимент показал правильность работы системы питания и системы охлаждения. Теперь можно задуматься об экономии энергии - как надо реализовывать алгоритмы что бы уложиться в 100 Вт.

Go to the top of the page
 
+Quote Post
4 страниц V  < 1 2 3 4 >  
Start new topic
Ответов (15 - 29)
dsmv
сообщение May 27 2018, 15:21
Сообщение #16


Местный
***

Группа: Свой
Сообщений: 451
Регистрация: 6-09-05
Из: Москва
Пользователь №: 8 284



Ну например есть очень простая задача сжатия ЛЧМ сигнала методом быстрой свёртки.
А далее простым увеличением количества отсчётов можно дойти до предела на любой ПЛИС.
Go to the top of the page
 
+Quote Post
rloc
сообщение May 27 2018, 16:01
Сообщение #17


Узкополосный широкополосник
******

Группа: Свой
Сообщений: 2 316
Регистрация: 13-12-04
Из: Moscow
Пользователь №: 1 462



Согласен, на конкретных примерах легче разобраться. Читал ваши статьи или ваших коллег на хабре по БПФ. Как помню, пишите сами, со своей арифметикой. Вкратце, можете описать тип алгоритма? Ресурсы на один блок вычисления для определенного произведения полосы на кол-во отсчетов? По R22 с увеличением отсчетов при широких полосах (допустим выше 100 МГц) быстрее заканчивается внутренняя память, а внешнюю не удается эффективно использовать из-за малой ширины.
Go to the top of the page
 
+Quote Post
dsmv
сообщение May 27 2018, 16:21
Сообщение #18


Местный
***

Группа: Свой
Сообщений: 451
Регистрация: 6-09-05
Из: Москва
Пользователь №: 8 284



Про БПФ пишет Александр Капитанов.

Вот например картинка как ложатся БПФ и ОБПФ размером 64К в ПЛИС Virtex 7 VX1140. В этой ПЛИС 3360 DSP, т.е. она меньше чем KU115 в которой 5560 DSP. Но масштабы сравнимые.
А вот теперь увеличиваем размер БПФ и ОБПФ до 256К. Это уже займёт больше половины ПЛИС. Это при том, что мы используем собственный формат с плавающей точкой размером 23 бита.
Если FFT от Xilinx с плавающей точкой 32 бита, то скорее всего вообще не поместиться.
Здесь используется классические алгоритмы БПФ и ОБПФ с прореживанием по частоте и по времени. А также совершенно классическое представление числа с плавающей точкой. Вот только размеры мантиссы и экспоненты подобраны так, что они оптимально ложились на архитектуру DSP блока Xilinx. Подробнее - на Хабрахабр:
Реализация узла БПФ с плавающей точкой на ПЛИС
Custom floating point format on FPGA


Go to the top of the page
 
+Quote Post
blackfin
сообщение May 27 2018, 16:35
Сообщение #19


Гуру
******

Группа: Свой
Сообщений: 3 106
Регистрация: 18-04-05
Пользователь №: 4 261



Цитата(dsmv @ May 27 2018, 19:21) *
Вот например картинка как ложатся БПФ и ОБПФ размером 64К в ПЛИС Virtex 7 VX1140. В этой ПЛИС 3360 DSP, т.е. она меньше чем KU115 в которой 5560 DSP.

У Xilinx'а есть две реализации FFT - burst_io и pipelined streaming. У вас какая из них реализована?
И с точки зрения реализации FFT на ПЛИС интереснее расход BRAM, а не умножителей. У вас БПФ на 64К сколько съедает блочной памяти?
Go to the top of the page
 
+Quote Post
dsmv
сообщение May 27 2018, 16:42
Сообщение #20


Местный
***

Группа: Свой
Сообщений: 451
Регистрация: 6-09-05
Из: Москва
Пользователь №: 8 284



Цитата(blackfin @ May 27 2018, 19:35) *
У Xilinx'а есть две реализации FFT - burst_io и pipliled streaming. У вас какая из них реализована?
И с точки зрения реализации FFT на ПЛИС интереснее расход BRAM, а не умножителей. У вас БПФ на 64К сколько съедает блочной памяти?

У нас - pipelined
Для БПФ 64К используется 202 BRAM. у Xilinx - 478.
В статье Капитанова приведена таблица с потребляемыми ресурсами для разных размеров БПФ.
Реализация узла БПФ с плавающей точкой на ПЛИС
Go to the top of the page
 
+Quote Post
blackfin
сообщение May 27 2018, 16:44
Сообщение #21


Гуру
******

Группа: Свой
Сообщений: 3 106
Регистрация: 18-04-05
Пользователь №: 4 261



Цитата(dsmv @ May 27 2018, 19:42) *
У нас - pipelined
Для БПФ 64К используется 202 BRAM. у Xilinx - 478.
В статье Капитанова приведена таблица с потребляемыми ресурсами для разных размеров БПФ.
Реализация узла БПФ с плавающей точкой на ПЛИС

OK. Спасибо.
Go to the top of the page
 
+Quote Post
dsmv
сообщение May 27 2018, 16:48
Сообщение #22


Местный
***

Группа: Свой
Сообщений: 451
Регистрация: 6-09-05
Из: Москва
Пользователь №: 8 284



И хочу ещё раз напомнить, библиотека БПФ выложена как OpenSource проект.
https://github.com/capitanov/fp23fftk
Go to the top of the page
 
+Quote Post
Volkov
сообщение May 27 2018, 18:00
Сообщение #23


Местный
***

Группа: Свой
Сообщений: 284
Регистрация: 21-01-05
Пользователь №: 2 104



Цитата(dsmv @ May 27 2018, 01:00) *
В целом эксперимент показал правильность работы системы питания и системы охлаждения. Теперь можно задуматься об экономии энергии - как надо реализовывать алгоритмы что бы уложиться в 100 Вт.



Круто. А тепло как отводите? У нас в блоке на 100 Вт ПЛИС-ов, никак не могу добиться от конструкторов эффективного отвода тепла. А тут 100 с одного кристалла.


Go to the top of the page
 
+Quote Post
dsmv
сообщение May 27 2018, 18:54
Сообщение #24


Местный
***

Группа: Свой
Сообщений: 451
Регистрация: 6-09-05
Из: Москва
Пользователь №: 8 284



Цитата(Volkov @ May 27 2018, 21:00) *
Круто. А тепло как отводите? У нас в блоке на 100 Вт ПЛИС-ов, никак не могу добиться от конструкторов эффективного отвода тепла. А тут 100 с одного кристалла.


На модуле мощная система охлаждения. Модуль занимает два слота, установлен мощный вентилятор, обдувается также субмодуль.
Интересно наблюдать что происходит при выключении DSP блоков, температура очень быстро падает от +78 до +50.
И хочу отметить, 105 Вт это со всего модуля. На ПЛИС наверное приходится 85 Вт. Ещё есть куда расти.



Вот вид с другой стороны.


Go to the top of the page
 
+Quote Post
rloc
сообщение May 27 2018, 20:50
Сообщение #25


Узкополосный широкополосник
******

Группа: Свой
Сообщений: 2 316
Регистрация: 13-12-04
Из: Moscow
Пользователь №: 1 462



Цитата(dsmv @ May 27 2018, 19:21) *
Вот например картинка как ложатся БПФ и ОБПФ размером 64К в ПЛИС Virtex 7 VX1140. В этой ПЛИС 3360 DSP, т.е. она меньше чем KU115 в которой 5560 DSP. Но масштабы сравнимые.
А вот теперь увеличиваем размер БПФ и ОБПФ до 256К. Это уже займёт больше половины ПЛИС.

По картинке не очень понятно, какой объем. В оптимальном случае, для R4 увеличение вычислительных ресурсов составит log4(256k)/log4(64k)=9/8 = 12.5 % (по умножениям), по памяти соответственно в 4 раза. Но данных по памяти нет, выводов по ресурсам сделать нельзя.
Go to the top of the page
 
+Quote Post
dsmv
сообщение May 27 2018, 20:59
Сообщение #26


Местный
***

Группа: Свой
Сообщений: 451
Регистрация: 6-09-05
Из: Москва
Пользователь №: 8 284



Цитата(rloc @ May 27 2018, 23:50) *
По картинке не очень понятно, какой объем. В оптимальном случае, для R4 увеличение вычислительных ресурсов составит log4(256k)/log4(64k)=9/8 = 12.5 % (по умножениям), по памяти соответственно в 4 раза. Но данных по памяти нет, выводов по ресурсам сделать нельзя.

Это не для режима pipeline. В этом режиме нарастание идёт практически линейное. Посмотрите таблицу в разделе "Общий объём ресурсов" https://habr.com/post/322728/
Используется Radix-2
Go to the top of the page
 
+Quote Post
rloc
сообщение May 27 2018, 21:44
Сообщение #27


Узкополосный широкополосник
******

Группа: Свой
Сообщений: 2 316
Регистрация: 13-12-04
Из: Moscow
Пользователь №: 1 462



Цитата(dsmv @ May 27 2018, 23:59) *
Это не для режима pipeline. В этом режиме нарастание идёт практически линейное.

Для pipeline приводил. R2 по ресурсам DSP48 растет конечно быстрее R4, но не настолько.

Прикрепленное изображение


Приведу еще раз ресурсы VX1140T: DSP48 = 3360, BRAM18 = 3760

Экстраполируя данные по таблице, получаем для 256K: DSP48 ~ 93, BRAM18 ~ 800

Как и ожидалось, память закончится раньше, а с оптимизированным алгоритмом R4 или R22 DSP48 потребуется еще меньше. Пока не вижу смысла использовать ПЛИС с большим кол-вом DSP48.
Go to the top of the page
 
+Quote Post
RobFPGA
сообщение May 27 2018, 22:09
Сообщение #28


Профессионал
*****

Группа: Свой
Сообщений: 1 214
Регистрация: 23-12-04
Пользователь №: 1 643



Приветствую!
Цитата(rloc @ May 28 2018, 00:44) *
...
Как и ожидалось, память закончится раньше, а с оптимизированным алгоритмом R4 или R22 DSP48 потребуется еще меньше. Пока не вижу смысла использовать ПЛИС с большим кол-вом DSP48.

FFT/IFFT это не предел сложности DSP обработки - у меня были системы в которых 70% ресурсов кристалла были заняты обработкой того что входило и выходило из/на них. И если б в то время у меня были такие чипы то можно было б еще немножко усложнил обработку - процентиков на 300-400. sm.gif. А не мудохатся с несколькими чипами.

Успехов! Rob.



Go to the top of the page
 
+Quote Post
rloc
сообщение May 27 2018, 22:27
Сообщение #29


Узкополосный широкополосник
******

Группа: Свой
Сообщений: 2 316
Регистрация: 13-12-04
Из: Moscow
Пользователь №: 1 462



Цитата(RobFPGA @ May 28 2018, 01:09) *
у меня были системы в которых 70% ресурсов кристалла были заняты обработкой того что входило и выходило из/на них.

Если не сложно, то по порядку:
1. Постановка задачи.
2. Решение.
3. Результаты в цифрах.
Go to the top of the page
 
+Quote Post
x736C
сообщение May 27 2018, 22:59
Сообщение #30


Профессионал
*****

Группа: Участник
Сообщений: 1 273
Регистрация: 3-03-06
Пользователь №: 14 942



Про локацию не могу ничего сказать, но общее соображение такое. Если задача масштабируемая, то можно любую плис исчерпать. Взлом паролей, майнинг, поиск чисел Мерсенна и т.п.
Go to the top of the page
 
+Quote Post

4 страниц V  < 1 2 3 4 >
Reply to this topicStart new topic
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 


RSS Текстовая версия Сейчас: 18th July 2025 - 06:15
Рейтинг@Mail.ru


Страница сгенерированна за 0.02619 секунд с 7
ELECTRONIX ©2004-2016