Если не зацикливаться на фирменных мегафункциях БПФ, то будет больше свободы.
Входная частота дискретизации 1МГц, берем тактовую частоту 128 МГц (вполне реальная частота для сложного проекта в Альтере с быстродействием -7 и -8).
Значит, накопив 128 отсчетов можно не спеша вычислить обычный ДПФ - 128 сверток длиной 128 поворачивающих множителей.
Расходы: комплексный умножитель (4 умножения + 2 сложения)
память на 128 отсчетов сигнала
память на 128*128=4096 поворачивающих множителей.
Теперь накручиваем многоканальность. Если все каналы будут работать синхронно, то поворачивающих множителей нужен один набор на все каналы.
Остаются 128 буферов по 128 отсчетов плюс 128 комплексных умножителей. Не знаю, какая у Вас разрядность данных, может 8 бит, а может и 18 - исходя из
этого посчитайте сколько конкретно необходимо памяти. Рекомендую посмотреть кристалл EP3C40Q240C8 от ALTERA - достаточно емкий, недорогой и QFP-корпус.
Если не влезет, то распараллелить на два таких корпуса.
И не каких мегафункций

Чего-то я не внимательно посмотрел и посчитал на 128 каналов а не на 16

16 каналов на 128 точек разрядностью 16 бит, реализованные как ДПФ, точно поместится в один кристалл EP3C40Q240C8.