Да всё это понятно, но, если скорость обработки настолько критична, что считать приходится отдельные такты (а сохранение/загрузка регистров и тому подобные действия -- это именно несколько тактов), то следует подумать о переходе на более мощный контроллер или, например, использовать ПЛИС.
|