Перед поиском ответа, сначала нужно избавиться от предубеждений в отношении PIC24 и PIC32.
Какие претензии в плане производительности могут быть к 16-разрядному ядру с 24-битной командой! (PIC24), которое читает/пишет RAM c одновременной сложной модификацией адреса за один такт, складывает два регистра и помещает результат в третий - за один такт, конвеер команд при переходе восстанавливает за два такта. И все это на частоте 40 МГц, без всяких тактов ожидания и почти без сталлов. RISC 32-битникам оно конечно уступает здесь (на этом тесте), но только за счет разрядности.
То же можно сказать и про PIC32, который есть MIPS32 с оценкой производительности 1.56DMIPS/MHz против 1.25 у Cortex-M3 и менее 1.0 у ARM7/9. И при этом FLASH у него быстрее, чем у LPC17xx, плюс полноценный кэш имеется, хоть и маленький

Добавлю, что представители ARM участвовали в разработке Coremark и как раз именно ARM использует его в своих PR целях. Например, как Cortex-A9 двоекратно побивает Atom.