Цитата(bav @ Jun 24 2009, 17:31)

в обмене через DMA процессор не задействован по определению. но, если проц в это время считывает данные с памяти, то пропускная способность падает - причем, виноват не сам PCIe, а пропускная способность самой памяти.
ну да, особенно если стоят две платы с CUDA, плюс плата ввода-вывода данных и запущен процесс обработки...
попробую другими словами: если комп не загруже обработкой, т.е. память свободна, то скорости обмена получаются близкие к заявленным.
Две CUDA это круто.
Но если посчитать:
Скорость обмена CUDA по PCI-Express 2.0 x16 - 4.5 ГБайта/с
Две CUDA + ADP201x1 = 4.5 *2 + 1.4 = 10.4 ГБайта/с
Это почти полная пропускная способноть DDR3 - 1066
В такой системе конечно встанет вопрос об оптимизации процессов вычисления и ввода-вывода. Но если до таких цифр не доходить, то поток в 1.4 Гбайта/с на процессе обработки и доступе процессора к памяти не сказывается. Кстати у нас решалась задача ввода данных и обработки в реальном времени на процессоре и CUDA. Исходный поток 500 МБайт/с, процессор и CUDA могли обработать только одну четвёртую часть от него.
Насчёт CUDA есть ещё мысль, хочется напрямую передавать поток данных с ADP201x1 в CUDA, минуя память, а с неё уже результат. Но до этого ещё не дошли.