ну я какбы опытный плисовод

советую взять отлаженный дизайн со средствами отладки софта и т.п.
если же в ПЛИС нет места и нужно очень компактно - посмотрите на zpu или какую-то еще opencores-овскую разработку (там и 8051 есть), но при этом могут быть проблемы с разработкой софта, глюками, несовместимостью со стандартным ядром и тулзами для него. еще есть компактные процессоры (типа пикоблейза) с писанием на ассемблере и минимумом ресурсов.
дело в том, что у актела нет своего фирменного дизайна процессора, типа ниоса или блейза
---------
несколько более экзотическая разновидность не RTPA3 случаем?
ну а по поводу флаши - я больше пары килобайт на декодерах не делал, слишком тяжело получается. но там есть методы - конвеер, разбитие на несколько блоков и т.д.
также в РА3 / RTPA3 есть 1кбит флаши - мелочь, но что-то можно туда запихать, а потом переписывать в ОЗУ
то есть нужно уже конкретно решать задачу, а не теоретизировать
----------
в рамках озвученного кажется, что решается, но какой-то плисовод скорее всего понадобится

=======
ради эксперимента засунул декодер на 12кБ (некая программка для SPARCa) - результат занял 20% ПЛИС РА3 3000L и тактовая 50МГц (15 уровней логики), время синтеза разумное (возможно трассировать будет долго, это уже некогда проверять)
для процессора с более плотным кодом (того же 51) может результаты будут похуже, синтез это процесс типа "эвристического архиватора", но не намного