Был удивлен :-\ У меня получилось три стадии регистров, Cyclone II, 16-битный вход, 8-битный выход и 98MHz как дети в школу

Да, Altera постаралась. Получается, что возможно реализовать корень квадратный в виде ассинхронной схемы. Единственное предложение какое есть для переносимости - это попытаться реализовать тоже самое на RTL и использовать как собственный модуль - но здесь надо действительно поискать другой, более эффективный алгоритм.