|
Производительность современных GPU при вычислении FFT |
|
|
|
 |
Ответов
|
Apr 5 2018, 17:21
|
Узкополосный широкополосник
     
Группа: Свой
Сообщений: 2 316
Регистрация: 13-12-04
Из: Moscow
Пользователь №: 1 462

|
Цитата(_pv @ Apr 5 2018, 16:44)  2*16*500 = 16ГБит/с Решил, что ограничение в 3 Гбит/c (в конкретном примере) было больше связано с интерфейсом, по первым ответам. По моим расчетам, узким местом в GPU может быть ограниченная полоса памяти и возможность ее эффективного использования в случае рандомного доступа. Насколько эффективно компиляторы могут оптимизировать алгоритм - для меня темный лес, что и хотелось выяснить, с экстраполяцией результатов на Pascal GP100/Radeon RX Vega с памятью HBM2 2048 бит. Цитата(RobFPGA @ Apr 5 2018, 17:29)  делал похоже на 4 Virtex - 2 канала 16 бит/250MHz, 16K FFT с перекрытием 50%, с кросс-кореляцией и с накоплением. С удовольствием посмотрел бы на рабочий образец в действии ) Продолжение было?
|
|
|
|
|
Apr 5 2018, 18:20
|
Профессионал
    
Группа: Свой
Сообщений: 1 214
Регистрация: 23-12-04
Пользователь №: 1 643

|
Приветствую! Цитата(rloc @ Apr 5 2018, 20:21)  Решил, что ограничение в 3 Гбит/c (в конкретном примере) было больше связано с интерфейсом, по первым ответам. ... С удовольствием посмотрел бы на рабочий образец в действии ) Продолжение было? А че на него смотреть - сначала был PCIX модуль на базе Virtex4SX35 от Московской ISYS. Потом сделали свой на базе модуля на Spartan6 и Artix7. Причем FFT обработка была на Spartan6! а Artix7 использовался для интерфейсов 1G Ethernet и либо PCIe x4 либо Ethernet 10G. Ну а продолжение потом было на Virtex5 - в realtime считался поток 6.6 GByte/s (12 бит/2.2GHz), правда FFT всего 512 точек но зато обработка каждого спектра геморройная. Ну а на сегодняшнем железе ( UltaScale, UltaScale+ ... ) такие чудеса можно наворотить.... Успехов! Rob.
|
|
|
|
Сообщений в этой теме
rloc Производительность современных GPU при вычислении FFT Apr 4 2018, 21:05 Serg76 Занимался подобной проблемой, результат неутешител... Apr 5 2018, 06:27 rloc Цитата(Serg76 @ Apr 5 2018, 09:27) главно... Apr 5 2018, 07:00  _pv ещё новые шарки SC58x у AD c FFT ускорителями обещ... Apr 5 2018, 08:59   rloc На DSP закладываться опасно, основная проблема - в... Apr 5 2018, 09:22  Serg76 Цитата(rloc @ Apr 5 2018, 10:00) Перейду ... Apr 5 2018, 10:43 krux длинные поточные FFT удобно делать на ПЛИСах.
под ... Apr 5 2018, 06:40 _pv за/против GPU ещё наверное зависит от того есть ли... Apr 5 2018, 13:09 rloc В моем случае данных в хосте изначально нет, снача... Apr 5 2018, 13:23 RobFPGA Приветствую!
Цитата(_pv @ Apr 5 2018, 16... Apr 5 2018, 14:29   rloc Цитата(RobFPGA @ Apr 5 2018, 21:20) Моско... Apr 6 2018, 05:49 stealth-coder GPU предусматривают 2 режима обмена данными - синх... Apr 6 2018, 15:18 rloc Цитата(stealth-coder @ Apr 6 2018, 18... Apr 6 2018, 15:54  stealth-coder Цитата(rloc @ Apr 6 2018, 18:54) Так нужн... Apr 7 2018, 08:15   Serg76 Цитата(stealth-coder @ Apr 7 2018, 11... Apr 7 2018, 11:49 Serg76 Цитата(stealth-coder @ Apr 6 2018, 18... Apr 6 2018, 19:07 faa Вот тут английский самоделкин на GPU от Raspberry ... Apr 7 2018, 13:00 rloc Цитата(faa @ Apr 7 2018, 16:00) На GPU в ... Apr 7 2018, 16:44  faa Цитата(rloc @ Apr 7 2018, 19:44) Есть два... Apr 7 2018, 17:57  RobFPGA Приветствую!
Цитата(rloc @ Apr 7 2018, 19... Apr 7 2018, 20:20   rloc Цитата(RobFPGA @ Apr 7 2018, 23:20) будем... Apr 7 2018, 22:45    RobFPGA Приветствую!
Цитата(rloc @ Apr 8 2018, 0... Apr 7 2018, 23:25    faa Цитата(rloc @ Apr 8 2018, 01:45) Очень тя... Apr 8 2018, 10:13  blackfin Цитата(rloc @ Apr 7 2018, 19:44) Подумал,... Apr 8 2018, 04:52   rloc Цитата(blackfin @ Apr 8 2018, 07:52) Pipe... Apr 8 2018, 07:18 thermit Странные показатели у вас.
gtx1060 complex fft 64... Apr 7 2018, 13:04 blackfin Цитата(thermit @ Apr 7 2018, 16:04) Стран... Apr 7 2018, 13:34 thermit Очевидно, что не успевает.
Честно говоря, обработ... Apr 7 2018, 13:59
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0
|
|
|