Могу дать уточнения по гэцэцэ, по версии IAR Gemm ответит.
GCC 4.2.0, arm-none-eabi, сборка от codesourcery. Оптимизация - O2.
единственное отличие в коде - используются "несколько иные" memcpy и memset - выдрал из ARM'овского порта mplayer'а (IAR не понимает код GAS'а, к сожалению). Правда копирования из памяти в память очень мало.
Измеряем "скорость" одним и тем же сниффером, так что точность есть

P.S. Надо бы еще 3.4.6 и 2.9.5 затестить