При синтезе регистры стали заменяться на встроенную память (механизм inferred RAM). А она, как похоже, ведёт себя удивительным образом: если на обоих адресных входах, допустим, "0" и мы на 10 МГц по этому адресу что-то записали, после чего сменили адрес записи на "1" - то даже после того, как на читающей части проходит несколько 60-МГц-тактов (и даже 10 МГц без записи успевает прийти) - считанное после поднятия сигнала чтения значение будет "старым", а не записанным перед этим. В документации описанано "чтение во время записи" - но как-то не особенно чётко.
Пути обхода:
0) Использовать вход adresstall (для Cylcone II) - как я понял, в штатной мегафункции делается именно так.
1) Запаздывать адресом чтения: то есть в ситуации пустой очереди указатель записи - "0", а чтения - " -1" (вс. в кодах Грэя, естественно) - по приходу данных увеличивается указатель записи, после чего он синхронизируется в домен чтения, затем по тактовому чтения указатель чтения увеличивается до "0" и только одновременно с этим снимается флаг пустоты очереди - способ хороший, но чреватый ростом латентности.
[Не напутал ли я что в изложенном выше?

Кто с таким поведением памяти в очередях сталкивался, кто как преодолевал?
двухклоковый, между доменами, FIFO, dcfifo - чтоб потом удобнее кому-то искать было