Цитата
Если перелопатить это все под int
Я так понимаю, у Вас всегда круглое число блоков по 64 байта попадает на вход расчета? Если да, то надо убирать эту буферизацию вообще. Только в конце, после последнего блока подсовывать pad.
Это то, что касается прямых накладных расходов. По поводу распределения регистров я гляну завтра, если будут силы доползти до компа.
"Практика выше (теоретического) познания, ибо она имеет не только достоинство всеобщности, но и непосредственной действительности." - В.И. Ленин