Цитата(Rst7 @ Feb 11 2009, 23:19)

Я так понимаю, у Вас всегда круглое число блоков по 64 байта попадает на вход расчета? Если да, то надо убирать эту буферизацию вообще. Только в конце, после последнего блока подсовывать pad.
Это то, что касается прямых накладных расходов. По поводу распределения регистров я гляну завтра, если будут силы доползти до компа.
да, всегда попадает. Спасибо, буду ждать