Приветствую всех!
Я в плис полный новичок, кому несложно - подскажите пожалуйста.
Есть алгоритм, для работы которого нужно:
700 32 битных слова памяти (массив)
3 32 битных константы
На каждый шаг работы алгоритма делается:
3 обращения к массиву на чтение
Два битовых сдвига и одно суммирование
Две операции XOR
Три сравнения.
Одно обращение к массиву на запись.
Примерно раз в 4 миллиарда операций нужно пробросить два двойных слова наверх.
Требуется обработать огромное количество таких данных (тот же алгоритм, разный входной массив).
А теперь собственно вопросы:
1) Насколько эта задача подходит для реализации на плис ?
2) Сколько одновременно выполняющихся таких "алгоритмов" можно засунуть в самую навороченную FPGA ?
Текущие тесты пока показывают, что
1) Вычислять на процессорах - совсем плохо
2) Xeon Phi - быстрее, но далеко от желаемой производительности
3) CUDA - Kepler K10 практически в шесть раз быстрее одного Intel Core i7 3.33 Ghz, но хочется большего.
Интересует на что можно рассчитывать на плис.