Цитата(jojo @ Apr 6 2011, 09:50)

Реальные девайсы, по степени крутизны: x86_64 -> GPU -> FPGA с LUT6.
Позвольте с Вами не согласиться, FPGA->x86_6->GPU
Нормальный 5970 радеон за штуку бакс дает пиковых 1.1терафлопс на дабле, 600 терафлопс на дабле на тестовых и 400 на реальных получается.
Итого 1 гигафлоп за бакс в пике и 0.4 гигафлопа за бакс в реале на дабле, причем это уже со стоимостью всего обвеса.
Я конечно смог однажды на третьем стратиксе так отконвертить алгоритм, что его аналог на целочисленной арифметике функционировал с 900гфлопс эквивалентной производительности, но 150 стратикс все-таки не совсем дешев, итого те же 0.4гигафлопа за бакс, причем здесь только можно сказать об эквивалентных гигафлопах - в алгоритме умножение одно было отскалировано на сдвиг, все операции в целых числах, но именно этот алгоритм на ГПУ не через даблы был не реализуем.
А если даблы на плиски честные делать, то, исходя из сегодняшних цен, если и 0.05гигафлопа за бакс получится, то сильно здорого. Если взять средний четырехядерный АМДшник, который стоит около 100 бакс, и на нем реально получить 20 гигафлопс на дабле ну совсем не напрягаясь (0.2гигафлопа на бакс), ИМХО, плискам пока только удел в интерфейсах, и энергоэкономных, переносимых, военных отраслях числа перемалывать.
ЗЫ Что-то я задумался о своем, и не заметил, что топикстартер только о целочисленных операциях вопрошал. Почти все мною вышесказанное, переноситься из дабла и на целочисленные операции. На том же радеоне в целочисленной арифметике я терамипс на реальной задаче получал, а его пик, сложно подумать, 5.5терамипсов.