реклама на сайте
подробности

 
 
 
Reply to this topicStart new topic
> STR91x, конвеер ?
sergvks
сообщение Jul 30 2007, 10:02
Сообщение #1


Местный
***

Группа: Свой
Сообщений: 251
Регистрация: 26-07-05
Пользователь №: 7 117



Стал оптимизировать одну функцию. Время выполнения измеряю таймером типа:
time=0;//инкремент в прерывании таймера
for(n=0;n<100000;n++)
{
my_func();
}
while(1);//тут брейкпоинт

Заметил, что добавление NOP в самом начале, что вызывает просто сдвиг проги в памяти, может приводить к изменению производительности до 3.5%. И ещё :
SPI->DR=data;
while(!(SPI->SR&SPI_TX_FIFO_not_full));
При попадании этого while на определённые адреса проц на нём зацикливается, добавляем в прогу NOP и всё опять работает. Отсюда вопрос - это что работа конвеера??? Может выравнивание какое надо включить в компиляторе, я уже не знаю, поскажите pls. help.gif
Go to the top of the page
 
+Quote Post
scifi
сообщение Jul 30 2007, 11:27
Сообщение #2


Гуру
******

Группа: Свой
Сообщений: 3 020
Регистрация: 7-02-07
Пользователь №: 25 136



Цитата(sergvks @ Jul 30 2007, 14:02) *
Заметил, что добавление NOP в самом начале, что вызывает просто сдвиг проги в памяти, может приводить к изменению производительности до 3.5%.

Есть версия: возможно, флэш-память внутри имеет шину данных шириной 64 бита, чтобы компенсировать её тормознутось (грубо говоря, первое слово считывается с циклом ожидания, последующие - без ожидания, так как используются данные, считанные и кэшированные в прошлый раз). Таким образом, может возникруть эффект от выравнивания отдельных кусков кода на границе 64 бит.
А насчёт зависания - это, должно быть, косяк в программе. Не должно процессор клинить просто так. Изучайте содержимое регистров, смотрите дизассемблером, т.е. отлаживайте.
Go to the top of the page
 
+Quote Post
AlexandrY
сообщение Jul 30 2007, 18:41
Сообщение #3


Ally
******

Группа: Модераторы
Сообщений: 6 232
Регистрация: 19-01-05
Пользователь №: 2 050



В STR91x очень много чудес возникает если неправильно выставлять частотные режимы работы памяти и периферии.
Внимательно посмотрите какие частоты у MCLK, BCLK, HCLK, PCLK, RCLK и сверьте с допустимыми величинами из даташита.
Также если что не так очень любит отрубаться контроллер прерываний. Поэтому еще раз внимательно проверить во всех ли обработчиках читаются и сбрасываются вектора в VIC0 и VIC1.

NOP в принципе может влиять на прогу которая читает упакованные данные из FLASH. В частности функция memcpy чувствительна к выравниванию перемещаемых данных.


Цитата(sergvks @ Jul 30 2007, 13:32) *
Стал оптимизировать одну функцию. Время выполнения измеряю таймером типа:
time=0;//инкремент в прерывании таймера
for(n=0;n<100000;n++)
{
my_func();
}
while(1);//тут брейкпоинт

Заметил, что добавление NOP в самом начале, что вызывает просто сдвиг проги в памяти, может приводить к изменению производительности до 3.5%. И ещё :
SPI->DR=data;
while(!(SPI->SR&SPI_TX_FIFO_not_full));
При попадании этого while на определённые адреса проц на нём зацикливается, добавляем в прогу NOP и всё опять работает. Отсюда вопрос - это что работа конвеера??? Может выравнивание какое надо включить в компиляторе, я уже не знаю, поскажите pls. help.gif
Go to the top of the page
 
+Quote Post
sergvks
сообщение Jul 31 2007, 12:29
Сообщение #4


Местный
***

Группа: Свой
Сообщений: 251
Регистрация: 26-07-05
Пользователь №: 7 117



Цитата(AlexandrY @ Jul 30 2007, 22:41) *
NOP в принципе может влиять на прогу которая читает упакованные данные из FLASH. В частности функция memcpy чувствительна к выравниванию перемещаемых данных.


Попробуйте поэкспериментировать на Whetstone, если добавлять просто NOPы в стартап результат начинает прилично меняться,
хотя никаких memcpy там нет.
Go to the top of the page
 
+Quote Post
AlexandrY
сообщение Jul 31 2007, 20:57
Сообщение #5


Ally
******

Группа: Модераторы
Сообщений: 6 232
Регистрация: 19-01-05
Пользователь №: 2 050



Да, я зафиксировал такой эффект.
Но именно Dhrystone и Whetstone меняли свои результаты не более чем на 1%
А вот простой цикл (ниже) от простого смещения на 8 байт дает изменение результата на 20% !

;-------------------------------------------------------------------------------------------------------------
; Задержка на (t+1)*10 тактов
;-------------------------------------------------------------------------------------------------------------
us_Delay
MOV R1,#0
B label1

label2
NOP
NOP
NOP
NOP
NOP
ADD R1,R1,#1
label1
CMP R1,R0
BLT label2
BX LR


Причем откдючение Branch cache на полученные пропорции влияния не оказывает.
И именно смещение на 8-ь байт дает худший вариант.
Однозначно что-то с burst FLASH намутили.


Цитата(sergvks @ Jul 31 2007, 15:59) *
Попробуйте поэкспериментировать на Whetstone, если добавлять просто NOPы в стартап результат начинает прилично меняться,
хотя никаких memcpy там нет.



А вот с этой проблемой думаю может быть связан нюанс описанный в Errata 09-May-2007 пункт 2.16
И еще, на шине AHB надо обязательно поставить один такт ожидания.

Цитата(sergvks @ Jul 30 2007, 13:32) *
И ещё :
SPI->DR=data;
while(!(SPI->SR&SPI_TX_FIFO_not_full));
При попадании этого while на определённые адреса проц на нём зацикливается, добавляем в прогу NOP и всё опять работает. Отсюда вопрос - это что работа конвеера??? Может выравнивание какое надо включить в компиляторе, я уже не знаю, поскажите pls. help.gif
Go to the top of the page
 
+Quote Post
sergvks
сообщение Aug 1 2007, 06:19
Сообщение #6


Местный
***

Группа: Свой
Сообщений: 251
Регистрация: 26-07-05
Пользователь №: 7 117



Поигрался тактами ожидания где только они есть и пришёл к выводу, что установка лишнего такта ожидания не только повышает стабильность работы, но и производительность.
a14.gif beer.gif
Go to the top of the page
 
+Quote Post
MALLOY2
сообщение Aug 1 2007, 13:07
Сообщение #7


Знающий
****

Группа: Validating
Сообщений: 838
Регистрация: 31-01-05
Пользователь №: 2 317



Цитата
Да, я зафиксировал такой эффект.
Но именно Dhrystone и Whetstone меняли свои результаты не более чем на 1%
А вот простой цикл (ниже) от простого смещения на 8 байт дает изменение результата на 20% !

;-------------------------------------------------------------------------------------------------------------
; Задержка на (t+1)*10 тактов
;-------------------------------------------------------------------------------------------------------------
us_Delay
MOV R1,#0
B label1

label2
NOP
NOP
NOP
NOP
NOP
ADD R1,R1,#1
label1
CMP R1,R0
BLT label2
BX LR


Причем откдючение Branch cache на полученные пропорции влияния не оказывает.
И именно смещение на 8-ь байт дает худший вариант.
Однозначно что-то с burst FLASH намутили.



(sergvks @ Jul 31 2007, 15:59)

Попробуйте поэкспериментировать на Whetstone, если добавлять просто NOPы в стартап результат начинает прилично меняться,
хотя никаких memcpy там нет.


Ничего нет тут странного, и то что результат аж 20% это нормально и burst FLASH тут не причем, во всем виноват конвеер smile.gif, команда BLT label2 и BX очисчает конвеер, и вот в каком месте он очистится, точнеее какие даные уже загружены в конвеере от этого и зависит производительность. Тоесть если вы хотите сделать точную задержку в тактах или посчитать сколько тактов уходит на функцию,на ядрах с конвеером забудьте ! точность приблизительно равна T = кол-во переходов * размер конвеера. вот и получите +- T тактов. Это если несчитать всяких колpий на шинах, особенно когда работает ПДП если он есть smile.gif.
Go to the top of the page
 
+Quote Post
AlexandrY
сообщение Aug 1 2007, 13:52
Сообщение #8


Ally
******

Группа: Модераторы
Сообщений: 6 232
Регистрация: 19-01-05
Пользователь №: 2 050



Эт с кем вы спорите?
Тут как бы всем и так понятно, что прога из FLASH выполняется не по тактам из манула на ARM.
Когда говорите об STR91x всегда уточняете какой конвеер вы имеете ввиду.
Конвеер ядра, конвеер модуля PFQ/BC или че другое.

Моя теория такая:
Когда команда перехода указывает на адрес находящийся вне ближней 16-и байтной зоны выровненной по 16-и байтной границе, то происходит очистка-выборка PFQ и соответственно торможение.
Т.е. PFQ может держать в себе только блоки выровненные по границе 16 (это и понятно к FLASH-и же доступ тоже 16-и байтный). И PFQ не сдвигаеться побайтно как можно понять из диаграмы в мануале, а всегда очищается и переписыватся целиком в случае переходов в проге.

В LPC думаю тоже должен наблюдаться похожий эффект.

Отсюда вывод. Для DSP алгоритмов с длительными циклами из малого количества команд, такие циклы следует принудительно распологать по границе 16 байт и тогда быстродействие во FLASH только на 10% будет отставать от быстродействия в RAM


Цитата(MALLOY2 @ Aug 1 2007, 16:37) *
Ничего нет тут странного, и то что результат аж 20% это нормально и burst FLASH тут не причем, во всем виноват конвеер smile.gif, команда BLT label2 и BX очисчает конвеер, и вот в каком месте он очистится, точнеее какие даные уже загружены в конвеере от этого и зависит производительность. Тоесть если вы хотите сделать точную задержку в тактах или посчитать сколько тактов уходит на функцию,на ядрах с конвеером забудьте ! точность приблизительно равна T = кол-во переходов * размер конвеера. вот и получите +- T тактов. Это если несчитать всяких колpий на шинах, особенно когда работает ПДП если он есть smile.gif.
Go to the top of the page
 
+Quote Post
sergvks
сообщение Aug 3 2007, 16:33
Сообщение #9


Местный
***

Группа: Свой
Сообщений: 251
Регистрация: 26-07-05
Пользователь №: 7 117



Все проблемы с прерываниями(я уже писал про конфликт таймера и uart) и тд решились путём установки 3-х циклов ожидания на флешь. Самое интересное, что просто понижение частоты даже до 25МГц ничего не давало.
Go to the top of the page
 
+Quote Post

Reply to this topicStart new topic
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 


RSS Текстовая версия Сейчас: 17th August 2025 - 23:28
Рейтинг@Mail.ru


Страница сгенерированна за 0.0142 секунд с 7
ELECTRONIX ©2004-2016