|
Новая FPGA-архитектура, Tabula SpaceTime |
|
|
|
Mar 1 2010, 18:50
|
Частый гость
 
Группа: Свой
Сообщений: 168
Регистрация: 6-07-04
Пользователь №: 266

|
Анонсировали еще одну FPGA будущего. И что интересно, руководит этой затеей опять-таки беженец из Xilinx. Я пару лет назад уже постил на electronix о новых ПЛИС спроектированными Xilinxовскими отщепенцами - правда тогда боролись за LowPower, а сейчас за High-Performance. Что-то разбегается народ из Xilinx во все стороны.
|
|
|
|
3 страниц
1 2 3 >
|
 |
Ответов
(1 - 42)
|
Mar 2 2010, 03:36
|

Adept
     
Группа: Свой
Сообщений: 3 469
Регистрация: 6-12-04
Из: Novosibirsk
Пользователь №: 1 343

|
Цитата Суть идеи состоит в быстрой переконфигурации логического массива и демультепликсирования исполнения разных конфигураций по времени. Переконфигурация со скоростью системного клока - 1.6GHz. Цитата В отличие от классических FPGA Tabula сделала ставку не на двухпортовую память, а на однопортовую и формируют из нее 8/16-портовую память все тем же временным мультепликсированием. Что-то это где-то мы уже видели (идею). Scenix? И чем это все кончилось. И вообще, статейка как-то выглядит странно: Цитата Двухпортовая память ни то, ни се - и по объему она в два раза меньше однопортовой, и большинству приложений надо порта 4, а еще лучше 8. Так что оптимизировать так оптимизировать. Это как? Почему 2-х портовая память в два раза больше занимает, чем однопортовая? И зачем нужна 4-х и 8-портовая? Про такое вообще не слышал. И про "8Бит" объем конфигурации не понятно. Видимо, имело в виду 8 мегабит. Но почему 8?
--------------------
«Отыщи всему начало, и ты многое поймёшь» К. Прутков
|
|
|
|
|
Mar 2 2010, 04:32
|
Вечный ламер
     
Группа: Модераторы
Сообщений: 7 248
Регистрация: 18-03-05
Из: Томск
Пользователь №: 3 453

|
Цитата(dxp @ Mar 1 2010, 21:36)  Это как? Почему 2-х портовая память в два раза больше занимает, чем однопортовая? Есть у меня знакомый асикостроитель (не SM) он говорил что так и есть, на однопортовку требуется в 2 раза меньше силикона чем на двухпортовку. Цитата И зачем нужна 4-х и 8-портовая? Про такое вообще не слышал. И про "8Бит" объем конфигурации не понятно. Видимо, имело в виду 8 мегабит. Но почему 8?  У хилых на последних чипах есть 4-х портовая память, значит зачем то нужно  дсп приложения, процы и т.д. и т.п. Если проект не липа и они сделают сквозной синтез, то чипы занятные будут. Я бы заюзал, только ели бы они не так много, а то вспоминается как то амбрик с 50ю ваттами на 1ГГц %) Цитата(SM @ Mar 1 2010, 13:37)  А то какие-то запредельные частоты, где асики уже очень конкретные конкуренты при существующих ценах на ПЛИСы такого класса. Вот и будет очередной суперчип для прототипирования асиков  Как я понял смысл в большой частоте нужен только для мультиплексирования конфигураций, с точки зрения user clock это классические плис 200/400 МГц. На частотах 800/1600 смысла в этих чипах нет. Цитата(Methane @ Mar 1 2010, 13:30)  Мне сложно понять, сколько бы хотела заплатить ксилинкс, за 1.6 ггц, но мне кажется что не мало. Дык а смысл? у них и сейчас эти ГГц есть, только между двумя триггерами. Вся времянка теряется в интерконнекте. Не удивлюсь что часть спонсируется самими хилыми, которые не хотят лишнего риска.
--------------------
|
|
|
|
|
Mar 2 2010, 05:00
|

Adept
     
Группа: Свой
Сообщений: 3 469
Регистрация: 6-12-04
Из: Novosibirsk
Пользователь №: 1 343

|
Цитата(des00 @ Mar 2 2010, 10:32)  Есть у меня знакомый асикостроитель (не SM) он говорил что так и есть, на однопортовку требуется в 2 раза меньше силикона чем на двухпортовку. Так, вроде, тут основную площадь сами ячейки памяти занимают, а не порты. Или двухпортовая ячейка в два раза больше однопортовой? Цитата(des00 @ Mar 2 2010, 10:32)  У хилых на последних чипах есть 4-х портовая память, значит зачем то нужно  дсп приложения, процы и т.д. и т.п. Хм. Потребность в двухпортовой памяти понятна - одновременно писать и читать. Других действий с памятью, вроде, пока не придумано. А зачем 4-х? Чтобы одновременно писать в два канала и в два канала читать? Ну, так такие задачи вполне могут параллелиться в разные блоки памяти. Не могу представить ситуации, чтобы жизненно необходимо было иметь 4 порта к памяти при наличии 2-портовой.
--------------------
«Отыщи всему начало, и ты многое поймёшь» К. Прутков
|
|
|
|
|
Mar 2 2010, 05:06
|
Знающий
   
Группа: Свой
Сообщений: 552
Регистрация: 29-02-08
Пользователь №: 35 481

|
Цитата Хм. Потребность в двухпортовой памяти понятна - одновременно писать и читать. Других действий с памятью, вроде, пока не придумано. А зачем 4-х? Чтобы одновременно писать в два канала и в два канала читать? Ну, так такие задачи вполне могут параллелиться в разные блоки памяти. Не могу представить ситуации, чтобы жизненно необходимо было иметь 4 порта к памяти при наличии 2-портовой. В свое время разрабатывал декодер TPC. Четыре порта были-бы ой как полезны  .
|
|
|
|
|
Mar 2 2010, 05:06
|
Вечный ламер
     
Группа: Модераторы
Сообщений: 7 248
Регистрация: 18-03-05
Из: Томск
Пользователь №: 3 453

|
Цитата(dxp @ Mar 1 2010, 23:00)  Так, вроде, тут основную площадь сами ячейки памяти занимают, а не порты. Или двухпортовая ячейка в два раза больше однопортовой? я в подробности не вникал, SM придет объяснит %) Цитата А зачем 4-х? Чтобы одновременно писать в два канал и в два канала читать? Ну, так такие задачи вполне могут параллелиться в разные блоки памяти. Не могу представить ситуации, чтобы жизненно необходимо было иметь 4 порта к памяти при наличии 2-портовой. у хилых 1 порт записи - 4 порта чтения, такое может быть необходимо при больших регистровых файлах (есть процы типа нексперии там 8 портов чтения) или при ДСП обработке/кодировании (например делать отведения тапов) и т.д. и т.п. Да, все это может быть сэмулированно на двухпортовке, но ценой ресурса. А в предлагаемой архитектуре это сделано ценой мультиплексирования %) ЗЫ. Просматривал работы MIT и наших вузов, видел работы по синтезу регистрового файла с 2 портами записи и 10ю портами чтения %)
--------------------
|
|
|
|
|
Mar 2 2010, 09:45
|
Гуру
     
Группа: Свой
Сообщений: 7 946
Регистрация: 25-02-05
Из: Moscow, Russia
Пользователь №: 2 881

|
Цитата(des00 @ Mar 2 2010, 08:06)  я в подробности не вникал, SM придет объяснит %) Ячейка однопортовой 6 транзисторов, ячейка двухпортовой - 8. Т.е. "ядро" - 4 транзистора в виде закольцованного буфера, и пара ключей на 1 порт. Плюс обвес - дешифраторы адреса и мультиплексора выходов, которых удваивается. Т.е размер ячейки двухпортовки - примерно в 1.1..1.2 раза больше однопортовки (с учетом того, что кроме транзисторов место занимают еще и разводка и питания), размер обвеса - вдвое. Конкретные примеры размеров (0.35 um, размеры в микронах, высота х ширина): однопортовки: 1Кх8 - 450х1350 1Кх16 - 870х1400 2Kx8 - 870х1400 2Кх16 - 1450х1450 двухпортовки: 1Кх8 - 1120х700 1Кх16 - 1120х1300 2Кх8 - 1120х1300 2Кх16 - 2150х1320 Сравнивая площади - 1.3 - 1.35 раз. Так что про "в два раза" - полная лажа. ну и картинко (two R/W ports 512x8 async RAM). Чтобы для того, чтобы понимать, сколько относительно друг друга занимает то, что удваивается, относительно того, что х1.1...1.2 . Ну и так, для "если что" - sync RAM это async, обвешанная регистрами и генератором импульса записи. ЗЫ А вообще тот же SpeedSter у achronix на 1.5 GHz работает... Так что еще хрен его знает, даст ли эта архитектура что-то такое экстраординарное.
Эскизы прикрепленных изображений
|
|
|
|
|
Mar 2 2010, 10:49
|
Частый гость
 
Группа: Свой
Сообщений: 168
Регистрация: 6-07-04
Пользователь №: 266

|
Цитата(SM @ Mar 2 2010, 12:45)  0.35um: Сравнивая площади - 1.3 - 1.35 раз. Так что про "в два раза" - полная лажа. Для 0.35 это так. Для более мелких техпроцессов 65nm LP Single-Port SRAM cell 1.05 X 0.5 = 0.525um^2 65nm LP Dual-Port 8T SRAM cell = 0.97um^2 65nm LP Single-Port SRAM Block 128x32 mux4 176.00x67.00 = 11792um^2 65nm LP Dual-Port SRAM Block 128x32 mux4 307.00x68.00 = 20876um^2 20876 / 11792 = 1,77 Для 40 нм коэффициент подтягивается к двойке еще ближе.
|
|
|
|
|
Mar 2 2010, 12:24
|
Частый гость
 
Группа: Свой
Сообщений: 168
Регистрация: 6-07-04
Пользователь №: 266

|
Цитата(SM @ Mar 2 2010, 14:44)  Это не из-за нанометров, а из-за мелкого объема. чем меньше по объему массив памяти, тем больше места занимает обвес относительно массива памяти. Гипотеза не верная. 65nm LP Single-Port SRAM Block 2Kx16 mux4 113.00x313.00 = 35292um^2 65nm LP Dual-Port SRAM Block 2Kx16 mux4 185.00x454.00 = 83990um^2 83990 / 35292 = 2.38
|
|
|
|
|
Mar 2 2010, 14:46
|
Гуру
     
Группа: Свой
Сообщений: 2 198
Регистрация: 23-12-04
Пользователь №: 1 640

|
для парочки вендоров 40нм - подтверждаю разницу 2+ и обратите внимание на тактовую 1порт Column Mux Option : 4 Number Of Banks : 1 Operating Frequency range : 748-2208 Mhz Memory Area : 139.44 x 70.42 = 9819 square microns 2порт Column Mux Option : 4 Number Of Banks : 1 Operating Frequency range : 555-1451 Mhz Memory Area : 278.74 x 73.92 = 20604 square microns наверно 1 портовку вылизывают чище, но чтобы уж внаглую халявили - не верю, наверно объективные причины есть (типа сигнал интегрити для зазумленой 0.35 топологии не пройдет) Цитата(dxp @ Mar 2 2010, 08:00)  Хм. Потребность в двухпортовой памяти понятна - одновременно писать и читать. Других действий с памятью, вроде, пока не придумано. А зачем 4-х? Чтобы одновременно писать в два канала и в два канала читать? Ну, так такие задачи вполне могут параллелиться в разные блоки памяти. Не могу представить ситуации, чтобы жизненно необходимо было иметь 4 порта к памяти при наличии 2-портовой. те же регистровые файлы в DSP, у TI64x вроде бы 6 портов регистровый файл (та же SRAM) 4-чтение, 2-запись я тоже считаю, что все эти многопортовки в микропроцессорных архитектурах от слабого воображения программистов - всяческим SIMD архитектурам многопортовка не нужна, но привыкли программисты халявить, чтож с них взять  а по поводу "гениальности" идеи - такая апликэйшен нота была у ксайлинса в ранние 90-е, про оптимизацию низкочастотных дизайнов путем "фолдинга" у синопсиса есть какая-то фича в DC, которая автоматом умеет так складывать логику (лень искать, как точно называется - слышал на презентации) ну и лично я использую в FPGA такое (в АЗИК пронихнуть не удавалось, но есть идеи), правда вырожденый случай - операции одинаковые
|
|
|
|
|
Mar 3 2010, 19:47
|

Lazy
     
Группа: Свой
Сообщений: 2 070
Регистрация: 21-06-04
Из: Ukraine
Пользователь №: 76

|
Цитата(cms @ Mar 1 2010, 22:50)  Анонсировали еще одну FPGA будущего. И что интересно, руководит этой затеей опять-таки беженец из Xilinx. ...Что-то разбегается народ из Xilinx во все стороны. Если быть точным - то там и с Altera есть "беженцы" :-) И с AMD и с LSI и т.п. А вот что-то с российских "кремниевых долин" нет никого.... Видать - не бедствуют. Молодцы :-)
--------------------
"Everything should be made as simple as possible, but not simpler." - Albert Einstein
|
|
|
|
|
Mar 4 2010, 20:03
|
Частый гость
 
Группа: Свой
Сообщений: 168
Регистрация: 6-07-04
Пользователь №: 266

|
Цитата(yes @ Mar 2 2010, 17:46)  а по поводу "гениальности" идеи - такая апликэйшен нота была у ксайлинса в ранние 90-е, про оптимизацию низкочастотных дизайнов путем "фолдинга" По нынешним временам герой не тот кто что-то предложил, а тот кто это пропихнул в массы. Ребята взяли и довели обстрактную идею до промышленного уровня. Хваляться, что забили на ней 80 патентов. А то что издали похожих фич много кругом - это ничуть их работу не умаляет. Я кстати, догадываюсь как они заделали свою реконфигурацию - на каждый коммутационный гейт повесили не однобитный RAM, а 8-битный регистр с управляющей обвеской. И крутят его по циклу. Правда не совсем понятно как они на 1.6ГГц клоке успевают сменить конфигурацию и прогнать на ней такт вычислений. Цитата(Victor® @ Mar 3 2010, 22:47)  Если быть точным - то там и с Altera есть "беженцы" :-) И с AMD и с LSI и т.п. А вот что-то с российских "кремниевых долин" нет никого.... Видать - не бедствуют. Молодцы :-) Откуда инфа про Altera, AMD и LSI? Почему вы уверены что там нет ребят из ex-USSR? Я вот во многих местах их видал. Особенно в окресностях Сан-Франциско.
|
|
|
|
|
Mar 5 2010, 04:21
|
Вечный ламер
     
Группа: Модераторы
Сообщений: 7 248
Регистрация: 18-03-05
Из: Томск
Пользователь №: 3 453

|
Цитата(SM @ Mar 4 2010, 16:38)  Тогда скорее что каждый бит рамы есть N-битный сдвиговый регистр закольцованный. Вот с каждым тактом на бешеной скорости значение нужного бита и меняется по кругу. И логики не надо. Кроме схемы записи для начальной конфигурации. И вычисления успеются. Как я понял размер кольца все таки можно изменить, поэтому к регистру надо добавить еще пару мультиплексоров, для конфигураций 4/1 2/1 %) Цитата(Leka @ Mar 4 2010, 17:22)  Это как, пока сигналы доедут до приемников - разводка 10 раз поменяется? Приемник, приемнику рознь. Печенька заточена под конвейерные вычисления "на месте", лежит в регистре чиселка, обновляемая на символьной скорости, а вокруг нее "крутиться" логика на тактовой частоте
--------------------
|
|
|
|
|
Mar 5 2010, 07:04
|
Гуру
     
Группа: Свой
Сообщений: 7 946
Регистрация: 25-02-05
Из: Moscow, Russia
Пользователь №: 2 881

|
Цитата(des00 @ Mar 5 2010, 07:21)  Как я понял размер кольца все таки можно изменить, поэтому к регистру надо добавить еще пару мультиплексоров, для конфигураций 4/1 2/1 %) Не пару, а по одному 2:1 на каждый бит. Если предположить, что у "нулевого" бита он и так есть, "конфигурирование/кольцо", то у остальных можно его же использовать как "bypass/enable". Да и 1.6 ггц не факт, что совсем-совсем в любой конфигурации.... Хотя и один входной широкий мукс не сильно будет производительность гробить, как его построить смотря.
|
|
|
|
|
Mar 6 2010, 23:22
|
iBuilder©
   
Группа: Свой
Сообщений: 519
Регистрация: 14-07-04
Из: Минск
Пользователь №: 322

|
Цитата(Methane @ Mar 5 2010, 15:49)  А откуда взялось 1.6ГГц? Да просто на сайте первоисточника упоминалась, например тут http://www.tabula.com/technology/technology.phpЗакладка 3.7x DSP PERFORMANCE
|
|
|
|
|
Mar 10 2010, 09:24
|
Местный
  
Группа: Свой
Сообщений: 268
Регистрация: 24-09-05
Пользователь №: 8 903

|
Цитата Хм. Потребность в двухпортовой памяти понятна - одновременно писать и читать. Других действий с памятью, вроде, пока не придумано. А зачем 4-х? Чтобы одновременно писать в два канала и в два канала читать? Ну, так такие задачи вполне могут параллелиться в разные блоки памяти. Не могу представить ситуации, чтобы жизненно необходимо было иметь 4 порта к памяти при наличии 2-портовой. Пример: Память команд, в которую попадают команды с основной ветви и ветвей предсказания переходов. Это все может происходить одновременно и 2-мя портами тут не обойтись.
--------------------
|
|
|
|
|
Mar 18 2010, 08:43
|
Вечный ламер
     
Группа: Модераторы
Сообщений: 7 248
Регистрация: 18-03-05
Из: Томск
Пользователь №: 3 453

|
Цитата VDDH_CORE Dual-core high rail 1.0 26,000 VDDL_CORE Dual-core low rail 0.70 15,000 36,5 Ватт только по ядру, для 1.6ГГц печеньки более менее (по крайней мере лучше чем у амбрика) %) Кстати у них что умножители есть только в самом старшем чипе ? И 44 PLL впечатляет, жаль только клоков маловато %) UPD Цитата Platform requirements: • Linux (64 bit). • 8-GB memory. • 20-GB free disk space for all devices. 2-GB free disk space for standard optimized executables (not stripped). виндузятники, в том числе и я в пролете %)
--------------------
|
|
|
|
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0
|
|
|