Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: 100 Ватт - модуль на Kintex UltraScale KU115
Форум разработчиков электроники ELECTRONIX.ru > Программируемая логика ПЛИС (FPGA,CPLD, PLD) > Работаем с ПЛИС, области применения, выбор
Страницы: 1, 2
dsmv
Здравствуйте,

Хочу поделиться результатами эксперимента проверки FMC132P c Kintex UltraScale KU115 в режиме максимальной мощности.
Достигнута длительная работа (больше часа) при стабильной температуре +78 градусов и потребляемой мощности модуля 105 Вт. ПЛИС потребляет меньше, скорее всего около 85 Вт.
Для проверки разработана прошивка ПЛИС. Вид трассировки - на скриншоте.
В ПЛИС реализованы 35 блоков, каждый из них имеет индивидуальное управление и включает в себя 102 DSP и 34 BRAM. Частота работы - 500 МГц. На вход DSP и BRAM поступает псевдослучайная последовательность, результаты работы каждых двух DSP и двух BRAM сравниваются. Это позволяет выявить одиночные ошибки.
Мощность 105 Вт достигнута при включении 22 блоков. Это 2244 DSP (из 5560) и 784 BRAM. При включении 24 блоков температура достигает +82 градусов и я останавливаю работу.
Все блоки объединены в одну цепочку управления и закреплены в своих областях. Цепочка управления включает 8 сигналов данных и опорный тактовый сигнал 100 МГц. Других сигналов управления нет. Это позволило достаточно экономно управлять всеми блоками. Если кому-нибуть нужны компоненты для реализации цепочки - сообщите, поделюсь.
В ПЛИС также размещены два контроллера DDR4 и контроллер PCI Express. Зелёным и жёлтым цветом выделены два блока из 35.
Первоначальные варианты прошивки разводились примерно за 10 часов, после некоторой оптимизации - за 2.5 часа.
В целом эксперимент показал правильность работы системы питания и системы охлаждения. Теперь можно задуматься об экономии энергии - как надо реализовывать алгоритмы что бы уложиться в 100 Вт.

rloc
Цитата(dsmv @ May 27 2018, 01:00) *
Хочу поделиться результатами эксперимента проверки FMC132P

Кто такой щедрый, что не задумываясь купит XCVU7P-2FLVB2104 ?
blackfin
Цитата(rloc @ May 27 2018, 02:12) *
Кто такой щедрый, что не задумываясь купит XCVU7P-2FLVB2104 ?

European Space Agency (ESA) ?
Цитата
ESA Pays $47M to e2v to Supply 114 CCDs for Plato Mission.

То есть, за каждую CCD ESA платит 412 тысяч $.. biggrin.gif
dsmv
Цитата(rloc @ May 27 2018, 02:12) *
Кто такой щедрый, что не задумываясь купит XCVU7P-2FLVB2104 ?


Здесь установлена XCKU115-3FLVB2104
Люди задумываются, но покупают.
blackfin
Цитата(dsmv @ May 27 2018, 01:00) *
Мощность 105 Вт достигнута при включении 22 блоков. Это 2244 DSP (из 5560) и 784 DSP.

Так сколько все-таки DSP блоков?
dsmv
Цитата(blackfin @ May 27 2018, 09:38) *
Так сколько все-таки DSP блоков?

Разведены 3570 DSP (64%)
Работают 2244 DSP (40%)
Работа на частоте 500 МГц
blackfin
Цитата(dsmv @ May 27 2018, 09:51) *
Разведены 3570 DSP (64%)
Работают 2244 DSP (40%)
Работа на частоте 500 МГц

OK. А к чему тогда относится цифра 784? К BRAM ?
Цитата(dsmv @ May 27 2018, 01:00) *
Это ... и 784 DSP.
dsmv
Цитата(blackfin @ May 27 2018, 10:00) *
OK. А к чему тогда относится цифра 784? К BRAM ?

Точно. Это 784 BRAM.
Вот не могу написать пост без ошибок, причём на самом видном месте.
rloc
Цитата(dsmv @ May 27 2018, 09:31) *
Здесь установлена XCKU115-3FLVB2104
Люди задумываются, но покупают.

Просветите, для каких задач нужны такие мощности (вычислительные)?
dsmv
Цитата(rloc @ May 27 2018, 13:23) *
Просветите, для каких задач нужны такие мощности (вычислительные)?

Радиолокационные задачи являются безразмерными.
rloc
Цитата(dsmv @ May 27 2018, 13:47) *
Радиолокационные

Знаком немного. Единственное, что приходит в голову - ФАР, где обработка каждого элемента (может быть несколько тыс.) делается централизовано. Решение таких задач чаще лежит в плоскости грамотного построения распределенной системы вычисления, заодно снижается нагрузка по передачи данных. Оправдать применение объема FLVB2104 крайне сложно.
blackfin
Цитата(rloc @ May 27 2018, 14:45) *
Знаком немного. Единственное, что приходит в голову - ФАР, где обработка каждого элемента (может быть несколько тыс.) делается централизовано. Решение таких задач чаще лежит в плоскости грамотного построения распределенной системы вычисления, заодно снижается нагрузка по передачи данных. Оправдать применение объема FLVB2104 крайне сложно.

А если ФАР размером 128*128 излучателей? biggrin.gif
rloc
Цитата(blackfin @ May 27 2018, 15:03) *
А если ФАР размером 128*128 излучателей?

Чем-то надо оцифровать или преобразовать в аналог сигналы для этих элементов. Это "чем-то" во многих случаях позволяет взять на себя задачи обработки.
RobFPGA
Приветствую!
Цитата(rloc @ May 27 2018, 14:45) *
... Оправдать применение объема FLVB2104 крайне сложно.

Это вы не видели систем где модулей на таких чипах стоит несколько сотен и на каждом модуле не по одному похожему чипу wacko.gif .

Удачи! Rob.

rloc
В госзаказах видел, а там где считают - нет. В первом случае говорить об оправданности применения смысла нет.
dsmv
Ну например есть очень простая задача сжатия ЛЧМ сигнала методом быстрой свёртки.
А далее простым увеличением количества отсчётов можно дойти до предела на любой ПЛИС.
rloc
Согласен, на конкретных примерах легче разобраться. Читал ваши статьи или ваших коллег на хабре по БПФ. Как помню, пишите сами, со своей арифметикой. Вкратце, можете описать тип алгоритма? Ресурсы на один блок вычисления для определенного произведения полосы на кол-во отсчетов? По R22 с увеличением отсчетов при широких полосах (допустим выше 100 МГц) быстрее заканчивается внутренняя память, а внешнюю не удается эффективно использовать из-за малой ширины.
dsmv
Про БПФ пишет Александр Капитанов.

Вот например картинка как ложатся БПФ и ОБПФ размером 64К в ПЛИС Virtex 7 VX1140. В этой ПЛИС 3360 DSP, т.е. она меньше чем KU115 в которой 5560 DSP. Но масштабы сравнимые.
А вот теперь увеличиваем размер БПФ и ОБПФ до 256К. Это уже займёт больше половины ПЛИС. Это при том, что мы используем собственный формат с плавающей точкой размером 23 бита.
Если FFT от Xilinx с плавающей точкой 32 бита, то скорее всего вообще не поместиться.
Здесь используется классические алгоритмы БПФ и ОБПФ с прореживанием по частоте и по времени. А также совершенно классическое представление числа с плавающей точкой. Вот только размеры мантиссы и экспоненты подобраны так, что они оптимально ложились на архитектуру DSP блока Xilinx. Подробнее - на Хабрахабр:
Реализация узла БПФ с плавающей точкой на ПЛИС
Custom floating point format on FPGA


blackfin
Цитата(dsmv @ May 27 2018, 19:21) *
Вот например картинка как ложатся БПФ и ОБПФ размером 64К в ПЛИС Virtex 7 VX1140. В этой ПЛИС 3360 DSP, т.е. она меньше чем KU115 в которой 5560 DSP.

У Xilinx'а есть две реализации FFT - burst_io и pipelined streaming. У вас какая из них реализована?
И с точки зрения реализации FFT на ПЛИС интереснее расход BRAM, а не умножителей. У вас БПФ на 64К сколько съедает блочной памяти?
dsmv
Цитата(blackfin @ May 27 2018, 19:35) *
У Xilinx'а есть две реализации FFT - burst_io и pipliled streaming. У вас какая из них реализована?
И с точки зрения реализации FFT на ПЛИС интереснее расход BRAM, а не умножителей. У вас БПФ на 64К сколько съедает блочной памяти?

У нас - pipelined
Для БПФ 64К используется 202 BRAM. у Xilinx - 478.
В статье Капитанова приведена таблица с потребляемыми ресурсами для разных размеров БПФ.
Реализация узла БПФ с плавающей точкой на ПЛИС
blackfin
Цитата(dsmv @ May 27 2018, 19:42) *
У нас - pipelined
Для БПФ 64К используется 202 BRAM. у Xilinx - 478.
В статье Капитанова приведена таблица с потребляемыми ресурсами для разных размеров БПФ.
Реализация узла БПФ с плавающей точкой на ПЛИС

OK. Спасибо.
dsmv
И хочу ещё раз напомнить, библиотека БПФ выложена как OpenSource проект.
https://github.com/capitanov/fp23fftk
Volkov
Цитата(dsmv @ May 27 2018, 01:00) *
В целом эксперимент показал правильность работы системы питания и системы охлаждения. Теперь можно задуматься об экономии энергии - как надо реализовывать алгоритмы что бы уложиться в 100 Вт.



Круто. А тепло как отводите? У нас в блоке на 100 Вт ПЛИС-ов, никак не могу добиться от конструкторов эффективного отвода тепла. А тут 100 с одного кристалла.


dsmv
Цитата(Volkov @ May 27 2018, 21:00) *
Круто. А тепло как отводите? У нас в блоке на 100 Вт ПЛИС-ов, никак не могу добиться от конструкторов эффективного отвода тепла. А тут 100 с одного кристалла.


На модуле мощная система охлаждения. Модуль занимает два слота, установлен мощный вентилятор, обдувается также субмодуль.
Интересно наблюдать что происходит при выключении DSP блоков, температура очень быстро падает от +78 до +50.
И хочу отметить, 105 Вт это со всего модуля. На ПЛИС наверное приходится 85 Вт. Ещё есть куда расти.



Вот вид с другой стороны.


rloc
Цитата(dsmv @ May 27 2018, 19:21) *
Вот например картинка как ложатся БПФ и ОБПФ размером 64К в ПЛИС Virtex 7 VX1140. В этой ПЛИС 3360 DSP, т.е. она меньше чем KU115 в которой 5560 DSP. Но масштабы сравнимые.
А вот теперь увеличиваем размер БПФ и ОБПФ до 256К. Это уже займёт больше половины ПЛИС.

По картинке не очень понятно, какой объем. В оптимальном случае, для R4 увеличение вычислительных ресурсов составит log4(256k)/log4(64k)=9/8 = 12.5 % (по умножениям), по памяти соответственно в 4 раза. Но данных по памяти нет, выводов по ресурсам сделать нельзя.
dsmv
Цитата(rloc @ May 27 2018, 23:50) *
По картинке не очень понятно, какой объем. В оптимальном случае, для R4 увеличение вычислительных ресурсов составит log4(256k)/log4(64k)=9/8 = 12.5 % (по умножениям), по памяти соответственно в 4 раза. Но данных по памяти нет, выводов по ресурсам сделать нельзя.

Это не для режима pipeline. В этом режиме нарастание идёт практически линейное. Посмотрите таблицу в разделе "Общий объём ресурсов" https://habr.com/post/322728/
Используется Radix-2
rloc
Цитата(dsmv @ May 27 2018, 23:59) *
Это не для режима pipeline. В этом режиме нарастание идёт практически линейное.

Для pipeline приводил. R2 по ресурсам DSP48 растет конечно быстрее R4, но не настолько.

Нажмите для просмотра прикрепленного файла

Приведу еще раз ресурсы VX1140T: DSP48 = 3360, BRAM18 = 3760

Экстраполируя данные по таблице, получаем для 256K: DSP48 ~ 93, BRAM18 ~ 800

Как и ожидалось, память закончится раньше, а с оптимизированным алгоритмом R4 или R22 DSP48 потребуется еще меньше. Пока не вижу смысла использовать ПЛИС с большим кол-вом DSP48.
RobFPGA
Приветствую!
Цитата(rloc @ May 28 2018, 00:44) *
...
Как и ожидалось, память закончится раньше, а с оптимизированным алгоритмом R4 или R22 DSP48 потребуется еще меньше. Пока не вижу смысла использовать ПЛИС с большим кол-вом DSP48.

FFT/IFFT это не предел сложности DSP обработки - у меня были системы в которых 70% ресурсов кристалла были заняты обработкой того что входило и выходило из/на них. И если б в то время у меня были такие чипы то можно было б еще немножко усложнил обработку - процентиков на 300-400. sm.gif. А не мудохатся с несколькими чипами.

Успехов! Rob.



rloc
Цитата(RobFPGA @ May 28 2018, 01:09) *
у меня были системы в которых 70% ресурсов кристалла были заняты обработкой того что входило и выходило из/на них.

Если не сложно, то по порядку:
1. Постановка задачи.
2. Решение.
3. Результаты в цифрах.
x736C
Про локацию не могу ничего сказать, но общее соображение такое. Если задача масштабируемая, то можно любую плис исчерпать. Взлом паролей, майнинг, поиск чисел Мерсенна и т.п.
blackfin
Цитата(dsmv @ May 27 2018, 23:59) *
Используется Radix-2

Учитывая ёмкость современных ПЛИС и скорость современных АЦП и ЦАП, чистый Radix-2 сейчас вряд ли кому будет интересен. wink.gif
dsmv
Цитата(blackfin @ May 28 2018, 07:52) *
Учитывая ёмкость современных ПЛИС и скорость современных АЦП и ЦАП, чистый Radix-2 сейчас вряд ли кому интересен. wink.gif

Абсолютно верно. Есть возможность сделать Radix-4 и Radix-8. А также повысить точность и сделать 32-х битную плавающую точку, но не в формате IEEE.
Как только появиться необходимость - это будет сделано.

Цитата
Как и ожидалось, память закончится раньше, а с оптимизированным алгоритмом R4 или R22 DSP48 потребуется еще меньше. Пока не вижу смысла использовать ПЛИС с большим кол-вом DSP48.


Скорее всего раньше закончиться резерв по мощности или по возможности охлаждения. Вот сейчас работает 40% DSP и это предел по возможности охлаждения. Если чуть-чуть улучшить радиатор, то будет предел по мощности. А возможность подведения большой мощности определяется в первую очередь размером корпуса и количеством контактов питания.
blackfin
Цитата(dsmv @ May 28 2018, 08:14) *
Абсолютно верно. Есть возможность сделать Radix-4 и Radix-8.
Как только появится необходимость - это будет сделано.

Уже сделано.. Только не FP и не pipelined.. biggrin.gif
Flood
Цитата(rloc @ May 27 2018, 02:12) *
Кто такой щедрый, что не задумываясь купит XCVU7P-2FLVB2104 ?

Кстати, ходят упорные слухи, что новым массовым чипом будет XCVU9P. особенно в корпусе FSGD2104. Как Kintex-325T сейчас, который можно купить дешевле младших вариантов.
XCVU9P стоит у Amazon и в VCU1525. Возможно, интерес Амазона, Байду, а также массы разнородных майнеров сделает эту модель намного доступнее всей остальной линейки US+.
blackfin
Цитата(Flood @ May 28 2018, 09:19) *
Как Kintex-325T сейчас, который можно купить дешевле младших вариантов.

А можете назвать цену? Если не секрет, конечно..
efg
Цитата(blackfin @ May 28 2018, 09:22) *
А можете назвать цену? Если не секрет, конечно..


На али по 120$ и даже меньше, и это поштучно.

UPD: Кстати о цене XCVU9P - розничная цена на плату DK-U1-VCU1525-A-G 4835$ на avnet, майнеры планируют сделать аналогичную серийную плату дешевле 4к$, интересно через сколько лет сама плис будет баксов по 400 biggrin.gif
syoma
Цитата(rloc @ May 27 2018, 12:23) *
Просветите, для каких задач нужны такие мощности (вычислительные)?

Бывают случаи, когда других просто не предлагают. Вот нам, например, необходимо использовать архитектуру на базе VPX. Применение - HVDC. Т.е. по функциональности всего ничего, а требования к надежности и наработке на отказ - почти космические.
Проектов не так много, так, что разрабатывать свою плату под свои нужды нет смысла, вот и используем готовые модули. И что есть из ПЛИС на рынке? Ну вот это, например. У других производителей то же самое - выбор только из крупных ПЛИСняков.

ПС кстати, так как VPX позволяет рассеивать дофига мощности и указанный выше модуль может рассеивать до 75Вт, тоже интересно когда нибудь забить его до отказа и посмотреть, насколько хорошо товарищи развели плату. Интересно, может у них уже есть соответствующие прошивки?
rloc
Цитата(dsmv @ May 28 2018, 08:14) *
Скорее всего раньше закончиться резерв по мощности или по возможности охлаждения. Вот сейчас работает 40% DSP и это предел по возможности охлаждения. Если чуть-чуть улучшить радиатор, то будет предел по мощности. А возможность подведения большой мощности определяется в первую очередь размером корпуса и количеством контактов питания.

Дмитрий, переход на другие алгоритмы преобразования позволит раза в 2 снизить мощность, не только за счет уменьшения DSP, но и меньших внутрикристальных пересылок, коммутаций, обращений к памяти. Не согласен с подводимой мощностью. У вас питание подводится с одной стороны, что по результатам симуляции чаще приводит к неравномерному распределению токов по выводам, а фактически это эквивалентно меньшему корпусу. Эффективность танталовых конденсаторов при больших пульсациях тока близка к 0, пусть даже мультианодных. И все работает, как видим. Статическое потребление неиспользуемых DSP тоже не маленькое.
Для задач FFT стоимость FMC132P избыточна раз в 10.
Tpeck
Цитата(dsmv @ May 28 2018, 08:14) *
Скорее всего раньше закончиться резерв по мощности или по возможности охлаждения. Вот сейчас работает 40% DSP и это предел по возможности охлаждения.

А в плавучке потребление зависит от уровня сигнала?
dsmv
Цитата(rloc @ May 28 2018, 15:19) *
Для задач FFT стоимость FMC132P избыточна раз в 10.


Хочу напомнить, что вопрос с FFT возник как пример задачи которая может загрузить эту ПЛИС. Если Вы считаете что для БПФ не нужна такая ПЛИС я могу с этим согласиться. Мне в общем то всё равно.
В данный момент я разработчик аппаратуры. Эта плата результат большой и сложной работы нашей компании. Этим тестом я показал что плата может работать с потребляемой мощностью 100 Вт. Как там распределиться эта мощность по DSP, BRAM, интерфейсам - это отдельная и сложная задача. Ресурсы всегда ограничены. Всегда что-то заканчивается, DSP блоки, память, пропускная способность интерфейсов, деньги, время, терпение заказчика, терпение разработчика. Это дорогая плата с большой ПЛИС и большим потреблением. Она даёт большие возможности по реализации Ваших алгоритмов. Если алгоритмы требуют таких ресурсов - берите эту плату, если не требуют - можно использовать что то попроще.

Плата интересная, на неё ещё можно установить HMC - Hybrid Memory Cube. И объединить несколько плат через HMC. Мы этого ещё не делали, но это тоже открывает дополнительные возможности по обработке данных.

jojo
из платы на KU115 можно выжать 150-200 Вт на разъёме питания. 150 Вт можно наверняка. на 200 можно пойти, если вообще всё в ней включить на частотах 500-600.

и данные ближе к случайным нужны.
dsmv
Цитата(jojo @ May 28 2018, 17:10) *
из платы на KU115 можно выжать 150-200 Вт на разъёме питания. 150 Вт можно наверняка. на 200 можно пойти, если вообще всё в ней включить на частотах 500-600.
и данные ближе к случайным нужны.


В корпусе 2104 около 100 линий питания. На каждый вывод 1А. Напряжение 0.95 В. Так что безопасно можно подвести 100 Вт - далее возможно разрушение контактов.
Так что разогнать можно, вот только сгорит.
jojo
А есть такие данные, что именно сгорит? Я думаю, мало кто пробовал, ибо просто плат таких нет или почти нет.
blackfin
Цитата(dsmv @ May 28 2018, 17:15) *
В корпусе 2104 около 100 линий питания. На каждый вывод 1А. Напряжение 0.95 В. Так что безопасно можно подвести 100 Вт - далее возможно разрушение контактов.
Так что разогнать можно, вот только сгорит.

Сомнительно, что именно ток через каждый вывод питания ограничивает безопасно подводимую мощность.

По крайней мере у Xilinx'а есть XAPP1301, в которой рассмотрен один и тот же проект, разведенный в двух различных корпусах D2104 и B2104.
И в обоих случаях на ПЛИС выделяется 150 Ватт мощности:
Цитата
The graph data in Figure 13 and Figure 14 was extracted from thermal simulations using the VU13P-D2104 package models with the heat sink solution shown above for a 150 Watt FPGA design. Using the first graph on the left in Figure 13, with an air flow rate of 30 CFM, the designer can calculate an effective thermal resistance of ~0.23°C/Watt. Using the second graph (Figure 13, on the right), the thermal solution operating at that airflow measures (at SYSMON) approximately 35°C above ambient, implying that the maximum ambient under these conditions can be as high as 65°C. Using an equivalent lidded package like the B2104 would yield a maximum ambient temperature of 58°C (7°C lower), as shown in the experiment data in Figure 14.
Plain
Уже третья страница, а о чём тема... Ежели надо, банально заморозить азотом, в чём достижение-то, у кого малиновый галстук дороже, что ли.
Flood
Цитата(dsmv @ May 28 2018, 17:15) *
В корпусе 2104 около 100 линий питания. На каждый вывод 1А. Напряжение 0.95 В.

А это откуда такая оценка - 1А на вывод?
iosifk
Цитата(dsmv @ May 27 2018, 01:00) *
Хочу поделиться результатами эксперимента проверки FMC132P c Kintex UltraScale KU115 в режиме максимальной мощности.

Жаль только что только 1 148 участников форума посмотрели, а 5 000 читателей КиТ это не видят...
Дмитрий, может решитесь нам материалы прислать. Ведь и фотки и текст у Вас уже есть, а много и не надо. Пусть хоть короткий материал, но будет.
jojo
Цитата(Plain @ May 28 2018, 19:23) *
Уже третья страница, а о чём тема... Ежели надо, банально заморозить азотом, в чём достижение-то, у кого малиновый галстук дороже, что ли.


Тема, в общем, нормальная. Азота ведь не будет.

Теперь интересно узнать, откуда ограничение на ток через вывод, я от разных людей подобную оценку слышал. Семинар что ли был какой-то на эту тему.
blackfin
Цитата(jojo @ May 29 2018, 04:22) *
Теперь интересно узнать, откуда ограничение на ток через вывод, я от разных людей подобную оценку слышал. Семинар что ли был какой-то на эту тему.

В UG583 есть полезная таблица:
Нажмите для просмотра прикрепленного файла

Для кристалла XCVU09P в корпусе FSGD2104 с его 137 выводами VCCINT находим ток через каждый пин VCCINT:

IVCCINT = 217/137 = 1.58 А
jojo
Цитата(blackfin @ May 29 2018, 06:14) *
В UG583 есть полезная таблица:
Нажмите для просмотра прикрепленного файла

Для кристалла XCVU09P в корпусе FSGD2104 с его 137 выводами VCCINT находим ток через каждый пин VCCINT:

IVCCINT = 217/137 = 1.58 А


Спасибо. Но это ведь при 100 градусах Цельсия. При 50-60 уж можно 2-3 А на вывод.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Invision Power Board © 2001-2025 Invision Power Services, Inc.