Статей про распараллеливание рле полно в инете, вопрос в том как в систему поступают данные, для эффективного применения того или иного метода. Конкретно image processing я не занимаюсь, но могу, в свободное время, оценить [скорость/LCELL'ы] на возможность распараллеливания конкретный алгоритм, который должен быть представлен в виде функции.
Избегать сложностей не нужно - нужно грамотно разделить задачи между DSP и FPGA, о чем и была речь в исходном посте. У меня на платах DSP тоже стоят, чем занимаются не скажу

но звук, например, они просто не тянут по скорости.