увы, сам только начал подходить к мульти-процессорной конфигурации в железе.
Первая поверхностная проблема - IDE создает проект только для одного процессора.
Для симуляции обошли тем, что софт параметризирован (одинаковая задача для всех, с минимальными различиями), и программа в моделируемую память руками кладется одинаковая для всех.
Моделируется нормально.
Для этого использованы tightly coupled memories, т.е. у каждого процессора своя память инструкций и данных, несколько корявое решение имхо, но для начала подходит. Не понравилось то, что а) нельзя отказаться от кеша инструкций; б) без кеша данных проект не работает -квартус/ниос 5.0. Процессор держит какие-то переменные по нулевым адресам, и без кеша они сваливаются в область жтаг отладчика, и все рушат, а с кешом наружу не вылезают, все работает нормально. Может в новых версиях починили, может на ниосфоруме есть подсказки. еще не смотрел, пока оцениваю общие идеи ...
От t-coupled памяти можно отказаться, позже подумаю, как это проще сделать.
Может, если отказаться от отладчика - и без кеша будет попроще.
В любом случае, можно цеплять свой скрипт линкера, который будет собирать как вам угодно, и на общей памяти, и с секциями в других местах и т.д.
Дальше пока не ушли, возникли другие вопросы на плате, не связанные с процессорами.
Надеюсь, для запуска и отладки обоих (трех-четырех-...) ядер проекта из-под IDE найдется какое-то встроенное решение.
Результатами поделюсь как только так сразу...
может через пару недель

Тесно им там быть не с чего, если ресурсы полностью разделить или запирать (мьютексами или чем-то еще), но это не проблема.