Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: STM32F0 Время реакции и выполнения прерывания
Форум разработчиков электроники ELECTRONIX.ru > Микроконтроллеры (MCs) > ARM
Страницы: 1, 2
ViKo
Что-то не впечатляет результат... Надо бы не просто переменные сделать int, а саму логику работы перевести на int.
scifi
Цитата(Влад Р. @ Jun 23 2016, 11:54) *
Заменил на fastы. stdint вместо них подставляет int. Вот листинг:

Такой код, конечно, можно ускорить, если вылизать на ассемблере. Правда, не очень благодарное это занятие.
Кстати, сишный код неоптимальный. К примеру, вместо
GPIOA->ODR = (GPIOA->ODR & ~0xFF) | data;
лучше написать
GPIOA->BSRR = 0x00FF0000 | data;
Ну и ещё что-то там наверняка есть.
Forger
Цитата(Влад Р. @ Jun 23 2016, 11:54) *
По-моему RTOS сейчас только замедлит код, а основное требование сейчас - это максимальное быстродействие и минимальное число "лишних" команд.
Лишних команд не бывает, а бывают деньги, заплаченные закачиком на разработку впустую crying.gif
Заказчику как правило совершенно до лампочки как внутри реализована задача, главное цена - и время (время = деньги), разумеется, изделие должно соотв. ТЗ.
Я лично никогда не буду экономить на цене МК в изделии, которое стоит как минимум в сотню раз дороже, чем этот МК, и
поэтмоу заложу такой МК, которого хватит с запасом! В крайнем случае его можно заменить и перенести код на него со старого МК.
Кстати, если код был написан через одно место (ASM-вставки, отсутствует система именования, не испоьзуются SVN и т.п.), то это создаст огромную проблему.
Более того, крайне затруднительно использование такого кривого разового кода в других проектах, а это тоже адская потеря времени и денег.

Цитата
Сейчас задействовано всего одно внешнее прерывание.

Сколько всего прерываний в коде?

Цитата
Почему под ARMы нужно избегать самописного ассемблерного кода,
См. выше.
Не только под ARM, а везде подобный колхоз = зло. Пройдет полгода и попробуйте в нем разобраться или не дай бог кто-то другой будет за вами это делать...
Проклянут до 10го колена sm.gif


Цитата
вроде как ASM-код - это эталон быстродействия для любой платформы?
Это - величайший миф всех времен и народов! sm.gif

Мы щас отклоняемся от темы в сторону классических и бессмысленных холиваров типа ASM vs C и т.п. Это бессмыслено.

Еще раз: для каждой коммерческой задачи существут бюджет!
Вполне возможно, что для примитивных, но очень крупносерийных изделиях есть смысл использовать ASM (в крайне редких случаях), но я не участвовал в таких проектах.
Влад Р.
Цитата(scifi @ Jun 23 2016, 12:13) *
Кстати, сишный код неоптимальный. К примеру, вместо
GPIOA->ODR = (GPIOA->ODR & ~0xFF) | data;
лучше написать
GPIOA->BSRR = 0x00FF0000 | data;
Ну и ещё что-то там наверняка есть.


Да, этот момент я упустил. Сомневался нормально ли отработает установка/сброс одних и тех же битов. Перечитал мануал и переделал:
CODE
68: {
0x08000240 B410 PUSH {r4}
69: uint_fast16_t db = GPIOC->IDR & 0x1FFF;
70: uint_fast8_t data/* = db & 0xFF*/;
71:
0x08000242 481A LDR r0,[pc,#104] ; @0x080002AC
0x08000244 8A00 LDRH r0,[r0,#0x10]
72: GPIOB->BSRR = GPIO_BSRR_BS_12;
73:
0x08000246 4A1A LDR r2,[pc,#104] ; @0x080002B0
0x08000248 04C1 LSLS r1,r0,#19
0x0800024A 0CC9 LSRS r1,r1,#19
0x0800024C 2001 MOVS r0,#0x01
0x0800024E 0300 LSLS r0,r0,#12
0x08000250 6190 STR r0,[r2,#0x18]
74: data = db & 0xFF;
75:
0x08000252 B2C8 UXTB r0,r1
76: if (!(db & (0x01 << 12))) {
0x08000254 04CB LSLS r3,r1,#19
68: {
69: uint_fast16_t db = GPIOC->IDR & 0x1FFF;
70: uint_fast8_t data/* = db & 0xFF*/;
71:
72: GPIOB->BSRR = GPIO_BSRR_BS_12;
73:
74: data = db & 0xFF;
75:
76: if (!(db & (0x01 << 12))) {
0x08000256 D423 BMI 0x080002A0
77: switch (db & (0x03 << 9)) {
78: case 0x0000:
0x08000258 2303 MOVS r3,#0x03
0x0800025A 025B LSLS r3,r3,#9
0x0800025C 4019 ANDS r1,r1,r3
79: GPIOA->BSRR = (0xFF << 16) | data;
0x0800025E 4B15 LDR r3,[pc,#84] ; @0x080002B4
0x08000260 D008 BEQ 0x08000274
0x08000262 39FF SUBS r1,r1,#0xFF
0x08000264 39FF SUBS r1,r1,#0xFF
0x08000266 1E89 SUBS r1,r1,#2
0x08000268 D009 BEQ 0x0800027E
0x0800026A 39FF SUBS r1,r1,#0xFF
0x0800026C 39FF SUBS r1,r1,#0xFF
0x0800026E 2902 CMP r1,#0x02
0x08000270 D116 BNE 0x080002A0
0x08000272 E00A B 0x0800028A
0x08000274 21FF MOVS r1,#0xFF
0x08000276 0409 LSLS r1,r1,#16
0x08000278 4308 ORRS r0,r0,r1
0x0800027A 6198 STR r0,[r3,#0x18]
80: break;
81: case 0x0200:
0x0800027C E010 B 0x080002A0
82: GPIOB->BSRR = (0x03 << 21) | (data & (0x03 << 5));
0x0800027E 2160 MOVS r1,#0x60
0x08000280 4008 ANDS r0,r0,r1
0x08000282 0409 LSLS r1,r1,#16
0x08000284 1840 ADDS r0,r0,r1
0x08000286 6190 STR r0,[r2,#0x18]
83: break;
84: case 0x0400:
0x08000288 E00A B 0x080002A0
85: GPIOA->BSRR = (0x0F << 24) | ((uint16_t)HINIBBLE(data) << 8);
0x0800028A 0301 LSLS r1,r0,#12
0x0800028C 0C09 LSRS r1,r1,#16
0x0800028E 020C LSLS r4,r1,#8
0x08000290 210F MOVS r1,#0x0F
0x08000292 0609 LSLS r1,r1,#24
0x08000294 1864 ADDS r4,r4,r1
0x08000296 619C STR r4,[r3,#0x18]
86: GPIOB->BSRR = (0x0F << 24) | ((uint16_t)LONIBBLE(data) << 8);
87: break;
88: }
89: }
0x08000298 0700 LSLS r0,r0,#28
0x0800029A 0D00 LSRS r0,r0,#20
0x0800029C 1840 ADDS r0,r0,r1
0x0800029E 6190 STR r0,[r2,#0x18]
90: EXTI->PR = EXTI_PR_PR8;
0x080002A0 20FF MOVS r0,#0xFF
0x080002A2 4905 LDR r1,[pc,#20] ; @0x080002B8
0x080002A4 3001 ADDS r0,r0,#0x01
0x080002A6 6148 STR r0,[r1,#0x14]
91: }
0x080002A8 BC10 POP {r4}
0x080002AA 4770 BX lr
0x080002AC 0800 DCW 0x0800
0x080002AE 4800 DCW 0x4800
0x080002B0 0400 DCW 0x0400
0x080002B2 4800 DCW 0x4800
0x080002B4 0000 DCW 0x0000
0x080002B6 4800 DCW 0x4800
0x080002B8 0400 DCW 0x0400
0x080002BA 4001 DCW 0x4001


Цитата(Forger @ Jun 23 2016, 12:26) *
Лишних команд не бывает, а бывают деньги, заплаченные закачиком на разработку впустую crying.gif
Заказчику как правило совершенно до лампочки как внутри реализована задача

Заказчику действительно все равно как будет реализована задача, но в данном конкретном случае требование заказчика состоит в реализации задачи на имеющейся аппаратной базе, а дальше крутись как хочешь.

Цитата(Forger @ Jun 23 2016, 12:26) *
Сколько всего прерываний в коде?

В данный момент в коде включена обработка только ОДНОГО прерывания.
Forger
Цитата(Влад Р. @ Jun 23 2016, 12:33) *
В данный момент в коде включена обработка только ОДНОГО прерывания.

Если уже в данный момент уперлись в производительность (приходится лезть в асм), то потом будет только хуже. Вас это не пугает? laughing.gif
Лично я бы в подобной ситуации уже забил тревогу и начал напрягать железячников, а пока они исправляют железо, ковырял бы это... Так сказать, "подстелить соломки" sm.gif
jcxz
Цитата(scifi @ Jun 23 2016, 15:13) *
Такой код, конечно, можно ускорить, если вылизать на ассемблере. Правда, не очень благодарное это занятие.
Кстати, сишный код неоптимальный. К примеру, вместо
...

Там много неоптимального, куча лишних операций, даже на си. Такое ощущение что старались написать как можно более тормозной код...
Например if (!(db & (0x01 << 12))) { - совершенно лишнее. Нужно убрать, а следующую строку заменить на switch (db & (3 << 9 | 1 << 12)) {.
Операция & 0x1FFF в первой строке тоже совершенно не нужная, генерит две лишних ассемблерных команды.
Операция ((uint16_t)HINIBBLE(data) << 8) - как будто специально написано, так чтобы было как можно тормознее - она генерит 3 команды + 1 команда предварительно:
Код
0x08000252 B2C8      UXTB     r0,r1
...
0x0800028A 0301      LSLS     r1,r0,#12
0x0800028C 0C09      LSRS     r1,r1,#16
0x0800028E 020C      LSLS     r4,r1,#8

Если не создавать отдельной переменной data и убрать операцию & 0x1FFF из первой строки, то достаточно будет 2-х команд, а не 4, да и кол-во используемых регистров сократится, а значит - меньше контекста надо сохранять/восстанавливать. Хотя это наверное на си не сделать, а только на асм.
И ещё куча мест.
Вобщем: код писал какой-то школьник, плохо дружащий с алгоритмизацией и программированием. sm.gif

Цитата(Влад Р. @ Jun 23 2016, 11:52) *
Появилась новая проблема - написание обработчика прерывания на асме.
Мои знания в асме близки к нулю, тем более под ARMы.

Берёте полученный листинг (лучше сделанный с полной оптимизацией), описание команд Cortex-M0 и разбираетесь.
Команды отсюда (для своего ядра):
http://infocenter.arm.com/help/index.jsp

Цитата(Forger @ Jun 23 2016, 15:26) *
Вполне возможно, что для примитивных, но очень крупносерийных изделиях есть смысл использовать ASM (в крайне редких случаях), но я не участвовал в таких проектах.

Да ладно Вам утрировать! Всё уместно в меру. И никакой сложности в написании асм-функции в десяток строк нет. И с поддержкой такого кода тож.
Сильно сомневаюсь что потребуется куда-то это переносить "в будущие проекты", так как это часть - аппаратно-зависима (ногодрыг) и в новом проекте будет делаться всё равно по-новой.
К тому-же - переносить на какие-то другие ядра - крайне маловероятно.
Даже ОС, за которые Вы так горячо пропагандируете, не обходятся без асм-вставок для переключения контекста и т.п.
А то что аппаратная реализация и, возможно, МК выбраны неправильно - я с Вами соглашусь.

Цитата(Forger @ Jun 23 2016, 15:54) *
Лично я бы в подобной ситуации уже забил тревогу и начал напрягать железячников, а пока они исправляют железо, ковырял бы это... Так сказать, "подстелить соломки" sm.gif

Вы не задумывались что этого железа может быть выпущено уже вагон + маленькая тележка? А может уже и у заказчиков многих стоит. sm.gif
GetSmart
Цитата(Obam @ Jun 23 2016, 12:27) *
Справедливости ради в Architecture Reference Manual этой темы нет, она отражена в Technical Reference Manual.

Arch RM описывает более общую группу. Tech RM описывает конкретное ядро (CM0, CM0+ и пр.) с ревизией и патчем. Указывать bit-banding логично в более общем документе, если опция относится ко всем элементам группы. Или ко многим.
Forger
Цитата(jcxz @ Jun 23 2016, 13:17) *
Даже ОС, за которые Вы так горячо пропагандируете, не обходятся без асм-вставок для переключения контекста и т.п.
Они пишутся один раз и разработчиком этой оси, пользователю оси туда соваться не нужно, даже я бы сказать нельзя.
Я же сую ОСь даже в простые проекты, поскольку ОСб - это однажды отлаженный кусок кода, который предварительно скомпилирован в отдельную либу (у меня так).
И дает возможность сразу грамотно спроектировать проект и очень быстро его оживить. А отладка и вылизывание (наведение лоска) - это уже дело десятое.
Если же очень нужно, то ничто не мешает это делать уже после того, как выпущена пробная партий изделий и идет наработка косяков и недочетов.
Т.е. параллельно выполняют две задачи (опять возвращаясь к оси sm.gif, экономится масса времени.


Цитата
Вы не задумывались что этого железа может быть выпущено уже вагон + маленькая тележка? А может уже и у заказчиков многих стоит. sm.gif

Я бы пробовал все варианты, которые только приходят в голову и не только в коде, но и копнул железо, а то может оказаться, что железо вообще никуда не годится wink.gif

Впрочем, мы тут сидим, гадаем, ничего не зная о проекте... sm.gif
jcxz
Цитата(jcxz @ Jun 23 2016, 16:17) *
Например if (!(db & (0x01 << 12))) { - совершенно лишнее. Нужно убрать, а следующую строку заменить на switch (db & (3 << 9 | 1 << 12)) {.

А ещё лучше заменить switch (db & (3 << 9 | 1 << 12)) { на switch (db >> 9 & (3 | 1 << 12 - 9)) { скорректировав соответствующим образом все case. Судя по листингу это уменьшит кол-во команд.
Влад Р.
Цитата(jcxz @ Jun 23 2016, 13:17) *
Например if (!(db & (0x01 << 12))) { - совершенно лишнее. Нужно убрать, а следующую строку заменить на switch (db & (3 << 9 | 1 << 12)) {.

if (!(db & (0x01 << 12))) необходима, чтобы в случае невыполнения условия, как можно быстрее выйти из прерывания.

Цитата(jcxz @ Jun 23 2016, 13:17) *
Операция & 0x1FFF в первой строке тоже совершенно не нужная, генерит две лишних ассемблерных команды.

Да, Вы правы. Осталась после предыдущих версий кода. Сейчас не нужна. Но на сколько я могу судить, компилятор ее проигнорировал (в дизассемблере ее не нашел, обычное считывание регистра). Сейчас и из Си убрал.

Остальное переделал:
CODE
68: {
0x08000240 B410 PUSH {r4}
69: uint_fast16_t db = GPIOC->IDR;
70:
0x08000242 4819 LDR r0,[pc,#100] ; @0x080002A8
0x08000244 8A00 LDRH r0,[r0,#0x10]
71: GPIOB->BSRR = GPIO_BSRR_BS_12;
72:
0x08000246 2101 MOVS r1,#0x01
0x08000248 4A18 LDR r2,[pc,#96] ; @0x080002AC
0x0800024A 0309 LSLS r1,r1,#12
0x0800024C 6191 STR r1,[r2,#0x18]
73: if (!(db & (0x01 << 12))) {
0x0800024E 04C1 LSLS r1,r0,#19
68: {
69: uint_fast16_t db = GPIOC->IDR;
70:
71: GPIOB->BSRR = GPIO_BSRR_BS_12;
72:
73: if (!(db & (0x01 << 12))) {
0x08000250 D424 BMI 0x0800029C
74: switch (db & (0x03 << 9)) {
75: case 0x0000:
0x08000252 2103 MOVS r1,#0x03
0x08000254 0249 LSLS r1,r1,#9
76: GPIOA->BSRR = (0xFF << 16) | (db & 0xFF);
0x08000256 4B16 LDR r3,[pc,#88] ; @0x080002B0
0x08000258 4001 ANDS r1,r1,r0
0x0800025A D008 BEQ 0x0800026E
0x0800025C 39FF SUBS r1,r1,#0xFF
0x0800025E 39FF SUBS r1,r1,#0xFF
0x08000260 1E89 SUBS r1,r1,#2
0x08000262 D00A BEQ 0x0800027A
0x08000264 39FF SUBS r1,r1,#0xFF
0x08000266 39FF SUBS r1,r1,#0xFF
0x08000268 2902 CMP r1,#0x02
0x0800026A D117 BNE 0x0800029C
0x0800026C E00B B 0x08000286
0x0800026E 21FF MOVS r1,#0xFF
0x08000270 B2C0 UXTB r0,r0
0x08000272 0409 LSLS r1,r1,#16
0x08000274 1840 ADDS r0,r0,r1
0x08000276 6198 STR r0,[r3,#0x18]
77: break;
78: case 0x0200:
0x08000278 E010 B 0x0800029C
79: GPIOB->BSRR = (0x03 << 21) | (db & (0x03 << 5));
0x0800027A 2160 MOVS r1,#0x60
0x0800027C 4008 ANDS r0,r0,r1
0x0800027E 0409 LSLS r1,r1,#16
0x08000280 1840 ADDS r0,r0,r1
0x08000282 6190 STR r0,[r2,#0x18]
80: break;
81: case 0x0400:
0x08000284 E00A B 0x0800029C
82: GPIOA->BSRR = (0x0F << 24) | ((db & 0xF0) << 4);
0x08000286 21F0 MOVS r1,#0xF0
0x08000288 4001 ANDS r1,r1,r0
0x0800028A 010C LSLS r4,r1,#4
0x0800028C 210F MOVS r1,#0x0F
0x0800028E 0609 LSLS r1,r1,#24
0x08000290 1864 ADDS r4,r4,r1
0x08000292 619C STR r4,[r3,#0x18]
83: GPIOB->BSRR = (0x0F << 24) | ((db & 0x0F) << 8);
84: break;
85: }
86: }
0x08000294 0700 LSLS r0,r0,#28
0x08000296 0D00 LSRS r0,r0,#20
0x08000298 1840 ADDS r0,r0,r1
0x0800029A 6190 STR r0,[r2,#0x18]
87: EXTI->PR = EXTI_PR_PR8;
0x0800029C 20FF MOVS r0,#0xFF
0x0800029E 4905 LDR r1,[pc,#20] ; @0x080002B4
0x080002A0 3001 ADDS r0,r0,#0x01
0x080002A2 6148 STR r0,[r1,#0x14]
88: }
0x080002A4 BC10 POP {r4}
0x080002A6 4770 BX lr
0x080002A8 0800 DCW 0x0800
0x080002AA 4800 DCW 0x4800
0x080002AC 0400 DCW 0x0400
0x080002AE 4800 DCW 0x4800
0x080002B0 0000 DCW 0x0000
0x080002B2 4800 DCW 0x4800
0x080002B4 0400 DCW 0x0400
0x080002B6 4001 DCW 0x4001


Цитата(jcxz @ Jun 23 2016, 13:17) *
Берёте полученный листинг (лучше сделанный с полной оптимизацией), описание команд Cortex-M0 и разбираетесь.

Сейчас как раз этим и занимаюсь. Не подскажите где посмотреть длительность каждой команды в машинных циклах?
jcxz
Цитата(Влад Р. @ Jun 23 2016, 17:15) *
Сейчас как раз этим и занимаюсь. Не подскажите где посмотреть длительность каждой команды в машинных циклах?

Я уже Вам приводил ссылку. Там всё есть, и циклы тоже.
Влад Р.
Цитата(jcxz @ Jun 23 2016, 16:24) *
Я уже Вам приводил ссылку. Там всё есть, и циклы тоже.


Описание команд там есть. По нем и разбираюсь. Но где указана длительность не заметил. Можете тыкнуть носом? laughing.gif
Obam
Цитата(Влад Р. @ Jun 23 2016, 17:54) *
Описание команд там есть. По нем и разбираюсь. Но где указана длительность не заметил.

Нажмите для просмотра прикрепленного файла
Столбец Cycles
раздел 3.3 стр 3-4 и до горизонта
scifi
Цитата(Влад Р. @ Jun 23 2016, 16:54) *
Можете тыкнуть носом? laughing.gif

Могу: тут.
Но имейте в виду: задержки флеша и доступа к периферии (GPIO) там не указаны.
Влад Р.
Цитата(scifi @ Jun 23 2016, 17:26) *
Могу: тут.
Но имейте в виду: задержки флеша и доступа к периферии (GPIO) там не указаны.

При текущей частоте задержка флэш составляет 1 Wait State. Это значит что при выполнении кода из флеша к длительности всех команд можно добавить 1 машинный цикл? Как оценить на сколько в такой ситуации ускоряет выполнение буфер предварительной выборки? Задержка доступа к периферии определяется исключительно частотой шины, на которой она сидит, и собственными предделителями конкретной периферии? Или есть еще влияющие факторы?

Цитата(IJAR @ Jun 24 2016, 15:57) *

Спасибо за ссылку! Фейспалм мне, что ненагуглил эту тему раньше.

Написал в отдельном файле простой обработчик, который для начала будет просто устанавливать пин в единицу и сбрасывать флаг прерывания. Среда компилирует файл. Но не могу понять как задействовать его в основной программе?
CODE
EXTI_BASE EQU 0x40010400
GPIOA_BASE EQU 0x48000000
GPIOB_BASE EQU 0x48000400
GPIOC_BASE EQU 0x48000800

EXTI_PR_OFFSET EQU 0x14
GPIO_IDR_OFFSET EQU 0x10
GPIO_BSRR_OFFSET EQU 0x18

AREA EXTI, CODE, READONLY
EXTI4_15_IRQHandler PROC
LDR r0, =GPIOB_BASE ; загрузить в регистр r0 адрес порта GPIOB
MOVS r1, #0x01 ; копировать в регистр r1 значение 0x01
LSLS r2, r1, #12 ; логический сдвиг влево на 12 бит значения в регистре r1 и сохранение результата в регистр r2
STR r2, [r0, #GPIO_BSRR_OFFSET] ; сохранить слово из регистра r2 в регистр GPIOB->BSRR
LDR r0, =EXTI_BASE ; загрузить в регистр r0 адрес модуля EXTI
LSLS r1, #8 ; логический сдвиг влево на 8 бит значения в регистре r1
STR r1, [r0, #EXTI_PR_OFFSET] ; сохранить слово из регистра r1 в регистр EXTI->PR
BX LR
ENDP
END
Obam
IARом пользуетесь? Тогда "IAR C/C++ Development Guide" главу "Assembler language interface" курить до просветления wink.gif
Влад Р.
Цитата(Obam @ Jun 24 2016, 16:56) *
IARом пользуетесь? Тогда "IAR C/C++ Development Guide" главу "Assembler language interface" курить до просветления wink.gif


Keil
GetSmart
Прошу прощения за отклонение от темы беседы. Но поправлюсь рядом со своим же постом.

Цитата(GetSmart @ Jun 23 2016, 01:32) *
Но первое же преджложение "Т.к. bit-banding есть опция СМ0+" на каких документах от АРМ основано - не ясно.
Точнее будет перевод "Т.к. bit-band регион есть опция ARM CM0+...". Но в открытой документации от ARM не было bit-band региона для этих ядер и эта формулировка тоже некорректна. Во многих реализациях ARMv6-M от NXP в регионе 0x200000000 было ОЗУ с дополнительными фичами самого NXP. Например IOHandler, USB буфер и прочее. У Фрискейла там тоже ОЗУ с дополнительной логикой. Похожей на bit-band. Написали бы <опция Кортексов или ARM>, а не так спорно.

На счёт ядра ошибся. SRAM работают с ядром через локальные шины. NVIC, MPU, кэш (которого нет у v6-M) и (какие-то) отладочные узлы встроены в ядро.

Ради эксперимента взял LPC435x, у которого на блок-схеме нарисованы отдельные ядра CM4 и CM0 (без плюса), а вся память и периферия общая. Ядро CM0 при обращении к региону 0x22000000 (bit-band) падает в Hard Fault. Хотя почти без накладных расходов и для удобства юзера логичнее было сделать этот регион общим. Но и тогда bit-banding было бы опцией (любого) процессора, а не архитектуры ARMv6-M или (под)группы.

Цитата
Но имейте в виду: задержки флеша и доступа к периферии (GPIO) там не указаны.

Можно сказать шире: в инструкциях чтения и записи внеядерного адресного пространства могут быть дополнительные такты задержек. Которые ARM не знает и не может указывать. И сами разработчики кристаллов все нюансы часто не описывают.
jcxz
Цитата(Влад Р. @ Jun 24 2016, 19:46) *
При текущей частоте задержка флэш составляет 1 Wait State. Это значит что при выполнении кода из флеша к длительности всех команд можно добавить 1 машинный цикл? Как оценить на сколько в такой ситуации ускоряет выполнение буфер предварительной выборки?

Нет. Задержка добавляется при отсутствии следующей для выполнения команды в буфере предвыборки.
Например: после перехода буфер опустошается. Через 2 такта он будет заполнен 4-мя байтами (если верно, что ширина шины выборки команд == 32 бита как тут ранее писали).
Если в этих 4-х байтах 2 команды и нет перехода, то за время пока они выполняются, буфер предвыборки может успеть прочитать ещё 32 бита (если шина к данной области памяти не занята).
Если же в этих 4-байтах команда 4-байтовая и её длительность в циклах ==1 (не знаю - есть-ли такие в M0?), то тогда да - опять будет опустошение предвыборки и приостановка на такт декодера команд.
Или если буфер предвыборки не успел прочитать след. байты из-за занятости шины (если был доступ CPU к данным в этом-же регионе памяти, или был доступ к данному региону другого bus-mastera по этой-же шине).
В общем - на линейном коде без ветвлений и если в данном регионе находится только исполняемый код, скорей всего никаких дополнительных тактов ожидания не будет.
На переходах будут приостановки. Хотя - может в Вашем МК буфер предыворки содержит несколько строк кеша? Но в Вашем вряд-ли. В некоторых МК буфер предвыборки имеет ёмкость в неск. сток кеша (в Tiva например).
Ещё дополнительные приостановки предвыборки могут быть если целевой адрес перехода не кратен 4. Имхо - буфер предвыборки скорей всего работает с выровненными адресами, а значит при невыровненном на 4 целевом адресе перехода, за первый доступ считает только максимум одну 2-байтовую команду, и если её длительность ==1 икл, то опять будет stall на дополнительный цикл на выборку следующих 32 бит.
Хотя всё это я описал для M3/M4, но думаю в M0 - аналогично.

Совет: там где у Вас switch, используйте табличный переход LDR PC,[Rx] - это сделает все ветвления case одинаковой длительности и избавит от необходимости if (!(db & (0x01 << 12))) {.
Влад Р.
Цитата(jcxz @ Jun 24 2016, 23:25) *
Нет. Задержка добавляется при отсутствии следующей для выполнения команды в буфере предвыборки.
Например: после перехода буфер опустошается. Через 2 такта он будет заполнен 4-мя байтами (если верно, что ширина шины выборки команд == 32 бита как тут ранее писали).

В Reference manual сказано так: "The prefetch buffer is 3 blocks wide where each block consists of 4 bytes." Видимо как раз те самые 32 бита.

Цитата(jcxz @ Jun 24 2016, 23:25) *
На переходах будут приостановки. Хотя - может в Вашем МК буфер предыворки содержит несколько строк кеша? Но в Вашем вряд-ли. В некоторых МК буфер предвыборки имеет ёмкость в неск. сток кеша (в Tiva например).

В STM32F0 кэша точно нет.

Цитата(jcxz @ Jun 24 2016, 23:25) *
Ещё дополнительные приостановки предвыборки могут быть если целевой адрес перехода не кратен 4. Имхо - буфер предвыборки скорей всего работает с выровненными адресами, а значит при невыровненном на 4 целевом адресе перехода, за первый доступ считает только максимум одну 2-байтовую команду, и если её длительность ==1 икл, то опять будет stall на дополнительный цикл на выборку следующих 32 бит.

Тут типа намекают, что адреса переходов лучше делать кратными 8 байтам:
"The implementation of this prefetch buffer makes a faster CPU execution possible as the CPU fetches one word at a time with the next word readily available in the prefetch buffer. This implies that the acceleration ratio will be of the order of 2 assuming that the code is aligned at a 64-bit boundary for the jumps."

Цитата(jcxz @ Jun 24 2016, 23:25) *
Совет: там где у Вас switch, используйте табличный переход LDR PC,[Rx] - это сделает все ветвления case одинаковой длительности и избавит от необходимости if (!(db & (0x01 << 12))) {.

ОК, как слеплю окончательный код, выложу на суд.

Пока разобрался как задействовать код из asm-файла. Не хватало всего одной директивы:
EXPORT EXTI4_15_IRQHandler
Очень помогло: Mixing C, C++, and Assembly Language
Вот, целиком в текущем виде:
CODE
EXTI_BASE EQU 0x40010400
GPIOA_BASE EQU 0x48000000
GPIOB_BASE EQU 0x48000400
GPIOC_BASE EQU 0x48000800

EXTI_PR_OFFSET EQU 0x14
GPIO_IDR_OFFSET EQU 0x10
GPIO_BSRR_OFFSET EQU 0x18

AREA ASMEXTI, CODE, READONLY
EXTI4_15_IRQHandler PROC
EXPORT EXTI4_15_IRQHandler
LDR r0, =GPIOB_BASE ; загрузить в регистр r0 адрес порта GPIOB
MOVS r1, #0x01 ; копировать в регистр r1 значение 0x01
LSLS r2, r1, #12 ; логический сдвиг влево на 12 бит значения в регистре r1 и сохранение результата в регистр r2
STR r2, [r0, #GPIO_BSRR_OFFSET] ; сохранить слово из регистра r2 в регистр GPIOB->BSRR
LDR r0, =EXTI_BASE ; загрузить в регистр r0 адрес модуля EXTI
LSLS r1, #8 ; логический сдвиг влево на 8 бит значения в регистре r1
STR r1, [r0, #EXTI_PR_OFFSET] ; сохранить слово из регистра r1 в регистр EXTI->PR
BX lr
ENDP
END
GetSmart
Цитата(jcxz @ Jun 25 2016, 00:25) *
Хотя всё это я описал для M3/M4, но думаю в M0 - аналогично.

У СМ0 один канал подгрузки данных (шина), У СМ3 (и старше) две или даже три. СМ0 выполняя инструкцию обращения к памяти будет отнимать эту шину от подгрузки кода.

Цитата(Влад Р. @ Jun 25 2016, 01:18) *
Пока разобрался как задействовать код из asm-файла.

После сброса периферии, вызвавшей обработчик нужно несколько тактов ожидания. Можно просто NOP-ов. Если после STR выполнить сразу BX lr, то будет сразу же повторный "залёт" в обработчик. Обычно нужно 3-10 тактов ожидания. Сколько конкретно - ведомо разве что разработчику всего чипа. Можно определить тестируя в железе. Лучше делать с запасом. Можно использовать инструкции DSB, т.к. у СМ0 DSB всегда константной длительности. Но инструкция шириной как два NOPa (32 bit).
Влад Р.
Цитата(GetSmart @ Jun 25 2016, 05:07) *
После сброса периферии, вызвавшей обработчик нужно несколько тактов ожидания. Можно просто NOP-ов. Если после STR выполнить сразу BX lr, то будет сразу же повторный "залёт" в обработчик. Обычно нужно 3-10 тактов ожидания. Сколько конкретно - ведомо разве что разработчику всего чипа. Можно определить тестируя в железе. Лучше делать с запасом. Можно использовать инструкции DSB, т.к. у СМ0 DSB всегда константной длительности. Но инструкция шириной как два NOPa (32 bit).

Что-то я подобного не замечал. Написал то же самое на Си и скомпилировал, никакие дополнительные регистры не стекируются (только те, что автоматом). При этом в полученном коде инструкция BX следует сразу за STR.
GetSmart
Цитата(Влад Р. @ Jun 25 2016, 08:15) *
Что-то я подобного не замечал. Написал то же самое на Си и скомпилировал, никакие дополнительные регистры не стекируются (только те, что автоматом). При этом в полученном коде инструкция BX следует сразу за STR.

Компилятор делает оптимально. Суть не в этом. Если у Вас в асм-коде вторая STR сбрасывает сигнал, идущий от перефирии к NVIC, то в общем случае (хоть в Си хоть в асм) нежелательно это делать в самом конце IRQ. Можно либо нопы вставлять, либо какое-то другое действие обработчика в самый конец перенести, особенно когда на асме (видны все инструкции).

Но за STM32 не берусь утверждать. На NXP (17хх, 13хх) эти дополнительные задержки нужны были точно. Странно, если NXP сделал свою часть чипа так, что от периферии сигнал снятия запроса прерывания доходил до NVIC с большой задержкой, которой нет у STM32. В доках NXP нужность задержек даже не описана. Так что приходилось их использовать для большей безопасности портирования кода. Может они эту граблю специально продемонстрировали чтобы программер был осторожней и сбрасывал запрос чуть раньше выхода из IRQ.
jcxz
Цитата(Влад Р. @ Jun 25 2016, 03:18) *
В Reference manual сказано так: "The prefetch buffer is 3 blocks wide where each block consists of 4 bytes." Видимо как раз те самые 32 бита.
В STM32F0 кэша точно нет.

Ну собственно эти "3 blocks" по 32 бита и есть миникеш. Пока из одного блока идёт декодирование команды, другие могут заполняться.
В Tiva так же примерно, только размер блока ==256бит (по ширине шины предвыборки) и их кол-во больше. И в LPC17xx так же.

Цитата(Влад Р. @ Jun 25 2016, 03:18) *
Тут типа намекают, что адреса переходов лучше делать кратными 8 байтам:
"The implementation of this prefetch buffer makes a faster CPU execution possible as the CPU fetches one word at a time with the next word readily available in the prefetch buffer. This implies that the acceleration ratio will be of the order of 2 assuming that the code is aligned at a 64-bit boundary for the jumps."

Хм... похоже что ширина шины предвыборки скорей всего == 64 бита всё-таки. Раз за такт выбирается одно слово + второе слово оказывается уже в буфере предвыборки за тот же такт.

Цитата(Влад Р. @ Jun 25 2016, 03:18) *
Пока разобрался как задействовать код из asm-файла. Не хватало всего одной директивы:
EXPORT EXTI4_15_IRQHandler

Обычно чтобы символьные имена из асм-файла были видимы в других исходных файлах (си и асм), нужно это символьное имя объявить в директиве PUBLIC.
Ну и, естественно, прописать прототип в си-хидере.
И наоборот: чтобы в асм-файле были видимы имена из других объектных файлов, нужно их указать в директиве EXTERN.
EXPORT я не использую нигде.

Цитата(GetSmart @ Jun 25 2016, 08:07) *
После сброса периферии, вызвавшей обработчик нужно несколько тактов ожидания. Можно просто NOP-ов. Если после STR выполнить сразу BX lr, то будет сразу же повторный "залёт" в обработчик. Обычно нужно 3-10 тактов ожидания. Сколько конкретно - ведомо разве что разработчику всего чипа. Можно определить тестируя в железе. Лучше делать с запасом. Можно использовать инструкции DSB, т.к. у СМ0 DSB всегда константной длительности. Но инструкция шириной как два NOPa (32 bit).

Можно это квитирование прерывания просто поставить в начале ISR, сразу после входа. Я так и делаю обычно.
Влад Р.
Цитата(jcxz @ Jun 27 2016, 07:57) *
Обычно чтобы символьные имена из асм-файла были видимы в других исходных файлах (си и асм), нужно это символьное имя объявить в директиве PUBLIC.
Ну и, естественно, прописать прототип в си-хидере.
И наоборот: чтобы в асм-файле были видимы имена из других объектных файлов, нужно их указать в директиве EXTERN.
EXPORT я не использую нигде.

Тут случай особый. Это функция-обработчик прерывания. И её прототип указывается в ASM-файле начальной инициализации, который трогать нежелательно. Поэтому в определении функции необходимо директива EXPORT или её синоним GLOBAL.

Цитата(jcxz @ Jun 27 2016, 07:57) *
Можно это квитирование прерывания просто поставить в начале ISR, сразу после входа. Я так и делаю обычно.

В моей ситуации необходимо как можно быстрее после входа в обработчик считать регистр порта в/в. Но в любом случае, это лишнее. Сброс флага внешнего прерывания нормально отрабатывает и непосредственно перед выходом из обработчика.

Написал обработчик на ASMе. Время входа в прерывание удалось сократить до 500 нс. Этого пока достаточно. Как сделать табличные переходы не соображу. Вот, что получилось:
CODE
EXTI_BASE EQU 0x40010400
GPIOA_BASE EQU 0x48000000
GPIOB_BASE EQU 0x48000400
GPIOC_BASE EQU 0x48000800

EXTI_PR_OFFSET EQU 0x14
GPIO_IDR_OFFSET EQU 0x10
GPIO_BSRR_OFFSET EQU 0x18
GPIO_BRR_OFFSET EQU 0x28

MACRO
asmexti_exit
LDR r0, =EXTI_BASE ; загрузить в регистр r0 адрес модуля EXTI
MOVS r1, #0x01 ; загрузить в регистр r1 значение 0x01
LSLS r1, #8 ; логический сдвиг влево на 8 бит значения в регистре r1
STR r1, [r0, #EXTI_PR_OFFSET] ; сохранить слово из регистра r1 в регистр EXTI->PR
BX lr ; возврат из функции
ALIGN
MEND

AREA ASMEXTI, CODE, READONLY
EXTI4_15_IRQHandler PROC
EXPORT EXTI4_15_IRQHandler
LDR r0, =GPIOC_BASE ; загрузить в регистр r0 адрес порта GPIOC
LDRH r0, [r0, #GPIO_IDR_OFFSET] ; загрузить в регистр r0 полуслово из регистра GPIOC->IDR
LSRS r1, r0, #9 ; логический сдвиг вправо на 9 бит значения в регистре r0 и сохранение результата в регистр r1
MOVS r2, #0x0B ; загрузить в регистр r2 значение 0x0B
ANDS r1, r2 ; побитовое И регистра r1 с регистром r2
CMP r1, #0x02 ; сравнить вычитанием из регистра r1 значения 0x02
BEQ C ; условный переход на метку C, если результат операции нулевой
CMP r1, #0x00 ; сравнить вычитанием из регистра r1 значения 0x00
BEQ A ; условный переход на метку A, если результат операции нулевой
CMP r1, #0x01 ; сравнить вычитанием из регистра r1 значения 0x01
BEQ B ; условный переход на метку B, если результат операции нулевой
asmexti_exit
A
MOVS r1, #0xFF ; загрузить в регистр r1 значение 0xFF
ANDS r0, r1 ; побитовое И регистра r0 с регистром r1
LSLS r1, #16 ; логический сдвиг влево на 16 бит значения в регистре r1
ORRS r0, r1 ; побитовое ИЛИ регистра r0 с регистром r1
LDR r2, =GPIOA_BASE ; загрузить в регистр r2 адрес порта GPIOA
STR r0, [r2, #GPIO_BSRR_OFFSET] ; сохранить слово из регистра r0 в регистр GPIOA->BSRR
asmexti_exit
B
MOVS r1, #0x60 ; загрузить в регистр r1 значение 0x60
ANDS r0, r1 ; побитовое И регистра r0 с регистром r1
LSLS r1, #16 ; логический сдвиг влево на 16 бит значения в регистре r1
ORRS r0, r1 ; побитовое ИЛИ регистра r0 с регистром r1
LDR r2, =GPIOB_BASE ; загрузить в регистр r2 адрес порта GPIOB
STR r0, [r2, #GPIO_BSRR_OFFSET] ; сохранить слово из регистра r0 в регистр GPIOB->BSRR
asmexti_exit
C
MOVS r1, #0x0F ; загрузить в регистр r1 значение 0x0F
LSLS r2, r1, #4 ; логический сдвиг влево на 4 бита значения в регистре r1 и сохранение результата в регистр r2
ANDS r2, r0 ; побитовое И регистра r2 с регистром r0
LSLS r2, #4 ; логический сдвиг влево на 4 бита значения в регистре r2
LSLS r3, r1, #24 ; логический сдвиг влево на 24 бита значения в регистре r0 и сохранение результата в регистр r3
ORRS r2, r3 ; побитовое ИЛИ регистра r2 с регистром r3
LDR r3, =GPIOA_BASE ; загрузить в регистр r2 адрес порта GPIOA
STR r2, [r3, #GPIO_BSRR_OFFSET] ; сохранить слово из регистра r2 в регистр GPIOA->BSRR
ANDS r0, r1 ; побитовое И регистра r0 с регистром r1
LSLS r0, #8 ; логический сдвиг влево на 8 бит значения в регистре r0
LSLS r2, r1, #24 ; логический сдвиг влево на 24 бита значения в регистре r0 и сохранение результата в регистр r3
ORRS r0, r2 ; побитовое ИЛИ регистра r0 с регистром r2
LDR r1, =GPIOB_BASE ; загрузить в регистр r1 адрес порта GPIOB
STR r0, [r1, #GPIO_BSRR_OFFSET] ; сохранить слово из регистра r0 в регистр GPIOB->BSRR
asmexti_exit
ENDP
END
Сергей Борщ
QUOTE (Влад Р. @ Jun 27 2016, 15:05) *
Сброс флага внешнего прерывания нормально отрабатывает и непосредственно перед выходом из обработчика.
Инженеры ARM с вами не согласны, поэтому придумали инструкции барьеров (DSB, DMB, IMB). Но вы можете лично наступить на грабли.
Влад Р.
Цитата(Сергей Борщ @ Jun 27 2016, 15:51) *
Инженеры ARM с вами не согласны, поэтому придумали инструкции барьеров (DSB, DMB, IMB). Но вы можете лично наступить на грабли.

Буду иметь в виду, перенесу сброс флага ближе к началу обработчика. Однако в функции EXTI_ClearITPendingBit() из STM32F0xx SPL этих инструкций нет. И доках от ST об этом тоже ничего.
jcxz
Цитата(Влад Р. @ Jun 27 2016, 18:05) *
Тут случай особый. Это функция-обработчик прерывания. И её прототип указывается в ASM-файле начальной инициализации, который трогать нежелательно. Поэтому в определении функции необходимо директива EXPORT или её синоним GLOBAL.

Не понял в чём именно проблема. Не обязательно ISR впихивать в файл начальной инициализации, можно создать отдельный файл.
Но впрочем - Ваше дело.

Цитата(Влад Р. @ Jun 27 2016, 18:05) *
Как сделать табличные переходы не соображу.

А что там соображать?
Код
;исходно в R0 - номер ветки ветвления
;допустим - на каждую ветку кода достаточно 32 байт
  LSLS   R0, #5
  ADR    R1, table00
  ADDS  PC, R1, R0

table00: ;ветка для значения 0
  ...
  BX LR
  NOP;добиваем NOP-ами до 32 байт
table01: ;ветка для значения 1
  ...
  BX LR
  NOP;добиваем NOP-ами до 32 байт
table02: ;ветка для значения 2
...

Не уверен что все использованные команды допустимы я ядре M0 (не имею с ним опыта), то думаю - можно заменить на эквиваленты.
ViKo
Код
CMP R0, #3; Compare input to maximum valid choice
BHI default_case; Branch to default case if higher than 3
MOVS R2, #4; Multiply branch table offset by 4
MULS R0, R2, R0; (size of each entry)
LDR R1,=BranchTable; Get base address of branch table
LDR R2,[R1,R0]; Get the actual branch destination
BX R2; Branch to destination
ALIGN 4; Alignment control. The table has
; to be word aligned to prevent unaligned read
BranchTable; table of each destination addresses
DCD Dest0
DCD Dest1
DCD Dest2
DCD Dest3
default_case
.; Instructions for default case
Dest0
.; Instructions for case ‘ 0 ’
Dest1
.; Instructions for case ‘ 1 ’
Dest2
.; Instructions for case ‘ 2 ’
Dest3
.; Instructions for case ‘ 3 ’

Из все той же книги. Пора бы, наконец, за ум взяться!
P.S. scifi-ю читать не надо, там на китайско-английском ржака. lol.gif
jcxz
Цитата(ViKo @ Jun 27 2016, 20:12) *
MULS R0, R2, R0; (size of each entry)
...

Однако такой вариант будет даже тормознее switch/case. laughing.gif
Влад Р.
Цитата(jcxz @ Jun 27 2016, 17:03) *
Не понял в чём именно проблема. Не обязательно ISR впихивать в файл начальной инициализации, можно создать отдельный файл.
Но впрочем - Ваше дело.

На сколько я понял PUBLIC - это аналог EXPORT и GLOBAL, но из других компиляторов. Потому как в Keil его нет. Чтобы показать линковщику откуда брать код, нужно либо прототип функции указать с директивой EXTERN, либо определение функции с директивой GLOBAL. Так? Startup-файл с прототипом функции-обработчика прерывания я трогать не хочу. Вот и указываю определение с директивой EXPORT (она же GLOBAL). Обработчик сейчас и так в отдельном файле.

С табличными переходами логика понятна. Спасибо!
ViKo
Цитата(jcxz @ Jun 27 2016, 18:22) *
Однако такой вариант будет даже тормознее switch/case. laughing.gif

Какого switch/case? Сишного? Таким же и будет. rolleyes.gif
А, ну да, для команд умножения количество тактов написано 1 or 32, Depends on multiplier implementation, в этом документе. http://infocenter.arm.com/help/index.jsp?t...c/CHDCICDF.html
Видимо, Джозеф Ю скопипастил из предыдущей книжки.
jcxz
Цитата(Влад Р. @ Jun 27 2016, 21:27) *
На сколько я понял PUBLIC - это аналог EXPORT и GLOBAL, но из других компиляторов. Потому как в Keil его нет.

Сорри. У меня почему-то отложилось в голове, что у Вас IAR.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Invision Power Board © 2001-2025 Invision Power Services, Inc.