Цитата
тут есть один момент = у Cuda плавающая точка, а в FPGA плавающая точка будет в разы медленнее. ну сколько Mhz максимум умножитель будет работать в FPGA? 250 где то...
в Tesla умножение будет быстрее происходить.
Года 3-4 назад до кризиса участвовал в проекте, перемножали разряженную матрицу на вектор, тн свертка. Вся арифметика в double (64 бит). Железо было свое, на Strarix-II c 3 блоками внешней статической и динамической памяти DDR2. В итоге тактовая вычислителя получилась 280 MHz. По результату - на маленьких матрицах время сравнимо с Core2, а чем матрица больше, тем железо сильнее натягивало PC. Сейчас уже деталей не помню.