реклама на сайте
подробности

 
 
> Производительность современных GPU при вычислении FFT
rloc
сообщение Apr 4 2018, 21:05
Сообщение #1


Узкополосный широкополосник
******

Группа: Свой
Сообщений: 2 316
Регистрация: 13-12-04
Из: Moscow
Пользователь №: 1 462



Коллеги, подскажите, какой максимальной производительности можно достичь на современных GPU при вычислении FFT 64К комплексных точек, 24 бит, radix-4 или более, с одинарной и двойной точностью? Среда разработки не имеет значения, нужно понять потолок производительности, с учетом полосы памяти. Если GPU умеет вычислять в потоке (streaming), то интересует минимальное время между загрузкой новых данных и выгрузкой обработанных.
Go to the top of the page
 
+Quote Post
 
Start new topic
Ответов
Serg76
сообщение Apr 5 2018, 06:27
Сообщение #2


Профессионал
*****

Группа: Участник
Сообщений: 1 050
Регистрация: 4-04-07
Пользователь №: 26 775



Занимался подобной проблемой, результат неутешительный. Непосредственно сам расчет FFT на GPU выполняется очень быстро по сравнению с CPU (выигрыш может составлять сотни раз), но главной проблемой, таким себе «бутылочным горлышком» остается обмен данными между хостом и девайсом, который «жрет» 99% времени, особенно это касается передачи данных с девайса на хост, это процедура намного медленнее, чем загрузка данных на GPU. Если данные не забирать после расчета, то смысл в этом есть, а так все печально, конечно. Карточка, с которой игрался - бюджетный GeForce GTX750ti/128 bit/1 Gb GDDR5
Go to the top of the page
 
+Quote Post
rloc
сообщение Apr 5 2018, 07:00
Сообщение #3


Узкополосный широкополосник
******

Группа: Свой
Сообщений: 2 316
Регистрация: 13-12-04
Из: Moscow
Пользователь №: 1 462



Цитата(Serg76 @ Apr 5 2018, 09:27) *
главной проблемой, таким себе «бутылочным горлышком» остается обмен данными между хостом и девайсом

Вы можете сказать, чем определяется производительность обмена данными?

Перейду к конкретике. Допустим, есть 2 квадратурных канала сбора данных по 16 бит, частота 100 МГц (в перспективе больше, до 500 МГц и выше). Квадратурные каналы - аналоговые, нужно предварительно подкорректировать смещение нуля, фазы и амплитуды. Потом - FFT с заданным количеством точек (для конкретики - 64К), матобработка между каналами, накопление. На выходе - поток не большой, возможно в разы меньше входного. Насколько легко современные GPU способны "переваривать" такие задачи? В первую очередь конечно интересует скорость FFT, в идеале - с 50% перекрытием, в худшем случае - с минимальными разрывами в обработке.

Цитата(krux @ Apr 5 2018, 09:40) *
длинные поточные FFT удобно делать на ПЛИСах.

Да, в части FPGA мне все более-менее понятно, по гибкости и ширине полосы памяти (внутренней) возможностей значительно больше.
Go to the top of the page
 
+Quote Post

Сообщений в этой теме
- rloc   Производительность современных GPU при вычислении FFT   Apr 4 2018, 21:05
|- - _pv   ещё новые шарки SC58x у AD c FFT ускорителями обещ...   Apr 5 2018, 08:59
||- - rloc   На DSP закладываться опасно, основная проблема - в...   Apr 5 2018, 09:22
|- - Serg76   Цитата(rloc @ Apr 5 2018, 10:00) Перейду ...   Apr 5 2018, 10:43
- - krux   длинные поточные FFT удобно делать на ПЛИСах. под ...   Apr 5 2018, 06:40
- - _pv   за/против GPU ещё наверное зависит от того есть ли...   Apr 5 2018, 13:09
|- - rloc   В моем случае данных в хосте изначально нет, снача...   Apr 5 2018, 13:23
- - _pv   2 квадратурных канала сбора данных по 16 бит, част...   Apr 5 2018, 13:44
|- - RobFPGA   Приветствую! Цитата(_pv @ Apr 5 2018, 16...   Apr 5 2018, 14:29
|- - rloc   Цитата(_pv @ Apr 5 2018, 16:44) 2*16*500 ...   Apr 5 2018, 17:21
|- - RobFPGA   Приветствую! Цитата(rloc @ Apr 5 2018, 2...   Apr 5 2018, 18:20
|- - rloc   Цитата(RobFPGA @ Apr 5 2018, 21:20) Моско...   Apr 6 2018, 05:49
- - stealth-coder   GPU предусматривают 2 режима обмена данными - синх...   Apr 6 2018, 15:18
|- - rloc   Цитата(stealth-coder @ Apr 6 2018, 18...   Apr 6 2018, 15:54
||- - stealth-coder   Цитата(rloc @ Apr 6 2018, 18:54) Так нужн...   Apr 7 2018, 08:15
||- - Serg76   Цитата(stealth-coder @ Apr 7 2018, 11...   Apr 7 2018, 11:49
|- - Serg76   Цитата(stealth-coder @ Apr 6 2018, 18...   Apr 6 2018, 19:07
- - faa   Вот тут английский самоделкин на GPU от Raspberry ...   Apr 7 2018, 13:00
|- - rloc   Цитата(faa @ Apr 7 2018, 16:00) На GPU в ...   Apr 7 2018, 16:44
|- - faa   Цитата(rloc @ Apr 7 2018, 19:44) Есть два...   Apr 7 2018, 17:57
|- - RobFPGA   Приветствую! Цитата(rloc @ Apr 7 2018, 19...   Apr 7 2018, 20:20
||- - rloc   Цитата(RobFPGA @ Apr 7 2018, 23:20) будем...   Apr 7 2018, 22:45
||- - RobFPGA   Приветствую! Цитата(rloc @ Apr 8 2018, 0...   Apr 7 2018, 23:25
||- - faa   Цитата(rloc @ Apr 8 2018, 01:45) Очень тя...   Apr 8 2018, 10:13
|- - blackfin   Цитата(rloc @ Apr 7 2018, 19:44) Подумал,...   Apr 8 2018, 04:52
|- - rloc   Цитата(blackfin @ Apr 8 2018, 07:52) Pipe...   Apr 8 2018, 07:18
- - thermit   Странные показатели у вас. gtx1060 complex fft 64...   Apr 7 2018, 13:04
- - blackfin   Цитата(thermit @ Apr 7 2018, 16:04) Стран...   Apr 7 2018, 13:34
- - thermit   Очевидно, что не успевает. Честно говоря, обработ...   Apr 7 2018, 13:59


Reply to this topicStart new topic
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 


RSS Текстовая версия Сейчас: 21st July 2025 - 23:09
Рейтинг@Mail.ru


Страница сгенерированна за 0.01514 секунд с 7
ELECTRONIX ©2004-2016