sast777
Aug 30 2018, 04:44
Power Estimator дает обескураживающие результаты: статическое потребление новых 20nm ПЛИС больше, чем старых 28нм
Сравнение сопоставимых по ресурсам старых и новых ПЛИС:
P static для старшего 5-го Циклона (5CEFA7 - 150K LE, память 6800Kbit, 312 умножителей (18x18) ) = 0.355W
P static для сопоставимого по ресурсам 10-го Циклона GX (10CX150 - 150K LE, память 9500Kbit, 312 умножителей (18x18) ) = 0.733W
В новом семействе добавились аппаратные умножителли с плавающей запятой - все, другой СУЩЕСТВЕННОЙ разницы не видно.
Статическое потребление 28nm и 20nm ПЛИС - отличается в 2 раза, причем в ОБРАТНУЮ сторону !!!
Динамическое потребление - для максимально одинаковых условий беру процессора в SoC Циклона 5 и Ариа 10
ARM - одинаковые Cortex A9!
Power estimator только для HPS - 800MHz два ядра тестовое ПО - Stream
5-й Циклон 1.282W
10-й Ария - 1.127W
Power только для HPS - 800MHz два ядра тестовое ПО - Whetstone
5-й Циклон 0.913W
10-й Ария - 1.147W
Где ожидаемое уменьшение потребления при переходе на меньшие технологические нормы?
MegaVolt
Aug 30 2018, 06:48
Цитата(sast777 @ Aug 30 2018, 07:44)

статическое потребление новых 20nm ПЛИС больше, чем старых 28нм
Логично. Если стоит задача оптимизации по потреблениию то 20нм это не тот тех процесс на который нужно ровняться.
Причины в ухудшении утечек при уменьшении размеров транзисторов.
Т.е. на графике потребление - нанометры минимум уже пройден. Дальшейшее уменьшение нужно для для скорости а не для потребления.
prostoRoman
Aug 30 2018, 06:50
Цитата(sast777 @ Aug 30 2018, 07:44)

Power Estimator дает обескураживающие результаты: статическое потребление новых 20nm ПЛИС больше, чем старых 28нм
....
Где ожидаемое уменьшение потребления при переходе на меньшие технологические нормы?
Увеличение статического потребления с уменьшением техпроцесса - это естественное физическое свойство кремниевой микро- и наноэлектроники. Частично или полностью оно может быть компенсировано снижением напряжения питания, но в случае ~1V дипазона снижать дальше слишком трудно при сохранении рабочих частот, вот и растёт потребление.
Динамическое потребление должно падать с уменьшением техпроцесса, но тут многое зависит от оптимизации техпроцесса (изделия семейств LP) и оптимизации схемы (тут могут быть и мены типов шин, добавление функциональных блоков к ядру, увеличение кэшей и тд. и т.п.).
sast777
Aug 30 2018, 07:42
Н-да, явно пробел в образовании, спасибо.
Как-то предыдущие годы зависимость была однозначна (по моему) - меньше нормы, меньше ест.
(спец проекты под сверхмалое потребление не учитываю - типа ambiqmicro)
Если есть у кого под рукой (естественно, и сам погуглю) статейки по поводу техпроцессов 28-20-16-14 nm TSMC,
используемых Altera и Xilinx, именно с точки зрения MIPS/Watt?
C графиками :-)
Правильный путь - написать код и его в "Power estimator" для Арии 5 и 10 - не предлагать :-)
Повелся на "Up to 40% Lower Power than Previous-Generation FPGAs and SoCs"
https://www.intel.com/content/www/us/en/pro...a/arria-10.htmlПравильно ли я понимаю - Cyclone 10GX и Arria 10SX - изготовлены по одному и тому же техпроцессу?
Правильно ли я понимаю - Cyclone V SE и Arria V SX - изготовлены по одному и тому же техпроцессу?
Если да, то чем объясняется разница в максимальных частотах например ARM?
Не попадалось ли где benchmark DMIPS/Watt ARM: Cyclone V SE, Arria V SX, Arria 10SX ?
_4afc_
Aug 30 2018, 07:51
У Xilinx таже ситуация. По документам - Spartan6 начинается от 4мА, а Artix7 от 100мА.
Так что если нужно малое потребление - нужно искать альтернативы Intel и Xilinx, т.к. эти видимо пошли в сторону производительности...
MegaVolt
Aug 30 2018, 08:59
Цитата(_4afc_ @ Aug 30 2018, 10:51)

У Xilinx таже ситуация. По документам - Spartan6 начинается от 4мА, а Artix7 от 100мА.
Artix не совсем низкопотребляющее семейство.
Сравнивать нужно со Spartan 7 у него от 36мА но тоже в разы больше.
prostoRoman
Aug 30 2018, 09:02
Цитата(_4afc_ @ Aug 30 2018, 10:51)

У Xilinx таже ситуация. По документам - Spartan6 начинается от 4мА, а Artix7 от 100мА.
Так что если нужно малое потребление - нужно искать альтернативы Intel и Xilinx, т.к. эти видимо пошли в сторону производительности...
Отключать питание - не?
Не нужно искать производителя, обманувшего закон природы - можно нарваться на обман покупателя. (ток утечки ячейки SRAM побороть тяжело, нужно искать спец. семейства)
PS: Интел давно пошла в сторону производительности
MegaVolt
Aug 30 2018, 09:10
Цитата(prostoRoman @ Aug 30 2018, 12:02)

Отключать питание - не?
У плис? А потом тратить питание на их загрузку?
prostoRoman
Aug 30 2018, 09:12
Цитата(sast777 @ Aug 30 2018, 10:42)

... по поводу техпроцессов 28-20-16-14 nm TSMC, используемых Altera и ...
емнип, чипы с такими нормами Альтера делала только у Интел, а после слияния и подавно, не?
Цитата(MegaVolt @ Aug 30 2018, 12:10)

У плис? А потом тратить питание на их загрузку?
Патентуйте свой вариант.
sast777
Aug 30 2018, 09:22
Батарейное питание. Алгоритм на столе протестирован на Cyclone V SX EVB (максимальный по ресурсам 5-й Циклон + ARM).
Часть обработки на Verilоg, часть на C. Обязательны и Verilog, и C.
По оценке программиста - вроде укладывается по времени. Но впритык - именно по ARM (хочется побольше памяти и/или мегагерц)
Был уверен, что Arria 10SX или связка Cyclone 10GX + внешний ARM даст меньшее потребление (батарея-с)
Запустил Power Estimator - и теперь озадачен: что же меньше съест при реализации алгоритма - Cyclon V, Arria V, либо 10-е..
dvladim
Aug 30 2018, 19:01
А вам нужен именно GX ? Т.е. трансиверы нужны в обязательном порядке?
Если - да, то учитывайте, что трансивер потребляет никак не меньше 5mW/Gbps/lane.
Если - нет, то берите Cyclone 10 LP.
DmitryR
Sep 3 2018, 09:06
Цитата(sast777 @ Aug 30 2018, 12:22)

Обязательны и Verilog, и C.
А что у вас конкретно делается на Verilog? Мы тоже традиционно делали ПЛИС+ARM, только ARM всегда стоял отдельно, и я сейчас начинаю понимать, что при современных процессорах ПЛИС в некоторых проектах больше не нужна. Например у TI есть процессоры (AM57xx), имеющие как ядро общего назначения, так и весьма мощный DSP (и плюс ещё несколько маленьких ядер для RTOS до кучи), и я прикинул, что когда не нужна быстрая реакция на события, этот DSP всё решит запросто.
sast777
Sep 3 2018, 14:13
Есть своя плата Ария 2 + 6678; но она мягко говоря потребляет...
Вот ищу - как уменьшить аппетит.
Со стороны FPGA смотрю на младшие из 10-х, а со стороны DSP - на 28nm 66AKxx.
(AM57xx имеют существенно отличную на 667х внутреннюю структуру, наши программеры дружно возопили "только не надо нового!!" )
И по Early Power Estimator получается, что 10GX практически не лучше 5Cxx.
Вручную набранные EPE:
100K LUT ~90% ; 200K ~90% FlipFlops, 250 RAM blocks 32x512 (50% 10GX150 и 70% 5CEMA7),
150 DSP 18x18+36 (96% 10GX150 и 96% 5CEMA7), Clock 6 Domains total 100K Fanouts; 4 PLL.
100Mhz: 5CEMA7 = 2.22W; 10GX150 = 2.014W;
200Mhz: 5CEMA7 = 3.75W; 10GX150 = 3.35W
Получается грустно - не следует ожидать уменьшения потребления при переходе от Циклона 5 к 10 GX.
goodsoul
Sep 3 2018, 14:18
Выскажу капитанскую мысль, но тем не менее:
чем меньше техпроцесс, тем больше статика. Но меньше динамика.
Поэтому правильная стратегия при переходе на топовые семейства это уменьшать ресурсы (т.е. размер ПЛИС) и поднимать частоту.
Например, уменьшить кол-во ресурсов в два раза и поднять частоту в два раза. Пропускная способность останется той же, но потреблять будет меньше.
sast777
Sep 3 2018, 15:06
Я в надежде на выигрыш по динамике и сделал два EPE: ресурсы одинаковые, разница только 100MHz и 200MHz.
Результат выложил выше.
Denisnovel
Sep 4 2018, 05:51
Правильней было бы считать не один и тот же объем логики на 100МГц и 200Мгц, а сравнивать
Cyclone V GX 100МГц 100% логики
Cyclone 10 GX 200МГц ~50% логики.
Если оптимизировать проект на 200МГц, то он будет занимать меньше места т.к. C10 значительно быстрее, чем C V.
sast777
Sep 4 2018, 09:51
Было:
100K LUT ~90% ; 200K ~90% FlipFlops, 250 RAM blocks 32x512, 150 DSP 18x18+36 , Clock 6 Domains total 100K Fanouts; 4 PLL.
100Mhz: 5CEMA7 = 2.22W; 10GX150 = 2.014W
200Mhz: 5CEMA7 = 3.75W; 10GX150 = 3.35W
Что ж, пробуем - урезаю осетра вдвое по ресурсам и 200MHz:
10GX085 и оставляю половину ресурсов (чуть больше): ( 50K LUT ; 100K FlipFlops, 130 RAM blocks 32x512, 80 DSP 18x18+36, Clock 6 Domains total 50K Fanouts; 4 PLL)
200Mhz: 10GX085 = 2.137W
Что-то не видно профита и таким образом относительно 100MHz / вдвое больше ресурсов :-(
DmitryR
Sep 4 2018, 10:02
Потому что неиспользуемые ресурсы продолжают жрать статику. Надо чип выбрать так, чтобы он был максимально заполнен.
sast777
Sep 4 2018, 11:01
10GX085 ( 50K LUT ~80% ; 100K ~80% FlipFlops, 130 RAM blocks 32x512 44%, 80 DSP 18x18+36 95%-12% utilization , Clock 6 Domains total 50K Fanouts; 4 PLL 67%)
200Mhz: = 2.137W
Например - просто больше не надо. И получается - что Cyclone V практически не уступает и по динамическому потреблению.
Занятно..
Denisnovel
Sep 5 2018, 05:31
Да, получается единственная выгода - это уменьшение стоимости.
Для просмотра полной версии этой страницы, пожалуйста,
пройдите по ссылке.