Это действительно прорыв и одновременно подкоп под архитектуры типа OMAP, TMS, BF и т.д.
Первое, что бросается в глаза это нагрузка одного универсального процессора двумя DSP ядрами. Любой кто работал с OMAP знает: мастер обычно ничего не делает, а только жрет рессурсы - память, энергию, площадь кристалла и т.д. В тоже время, slave пашет как пчелка. Этот жуткий перекос возник не случайно. Дело в том, что весить на один проц несколько процов другой архитектуры очень сложно. Межпроцессорный обмен это то, на чем спотыкаются абсолютно все ASIC-дезайнеры.
Похоже, Элвис решил эту далеко нетривиальную задачу.
Второе. Внимательно посмотрите на эту сточку из ТХ процессора 1892ВМ4:
Нерекурсивная фильтрация, целочисленный формат 32*32+64:
производительность, число тактов на отвод 0.5
ВНИМАНИЕ! У них 64-х разрядный аккумулятор. Это, действительно, новый уровень. Все DSP инженеры знают, какой геморрой представляет из себя накопление данных при фильтрации в узкополосных фильтрах. 40-бит однозначно не хватает. Потому на стандартных TMS и BF приходится бить систему на звенья, где каждое звено укладывается по накоплению в 40 бит. А на мультикоре самые узкополосные фильтры могут быть выполнены в однозвенном варианте.
Далее. Проц явно проектировали люди с мозгами. Сравним за какое время (в тактах) делают 256-ти точечное комплексное БПФ на 16 бит наиболее популярные DSP.
TMS320C55 - 4786
Blackfin - 2324
ZSP400 - 4180
ZSP540 - 1998
1892ВМ4 - 1200
не кисло, правда? Один мультикор это два блэкфина!

Ну и самое забавное - конвейеер. Не будем вспоминать сколько стадий требуется для выполнения команд в TMS и BF. Чтобы не расстраиваться. Скажем только, что в российском процессоре - всего три стадии. И при такой производительности!
Думаю, что Элвис можно поздравить.