Микросхема SRAM одна. И кадровый буфер в ней всего один. По сути контроллер данной SRAM эмулировал двухпортовую память (разносил запросы от двух разных хостов по времени - SRAM то очень быстрая). Поскольку снаружи мы эмулировали интерфейс 60ns SRAM, то в эти 60ns элементарно укладывалось несколько реальных обращений к кадровому буферу, как от внешнего хоста, так и от внутреннего конроллера TFT. Специальной синхронизации по заполнению буфера и его отрисовке не делал за ненадобностью - при кадровой 50 Гц полное время заполнения буфера ~10 ms. Моргания не видно. Хотя сделать синхронизацию не трудно.
В общем лучше посмотрите исходник, будет понятнее
P.S. Насчет неоптимальности - если внимательно посмотрите, то увидите, что накладные временные расходы контроллера SRAM составляют не много ни мало 100%. Теоретически можно было бы их уменьшить хотя бы до 10-20%, усложнив для этого блок формирования тактовых частот.