Форум разработчиков электроники ELECTRONIX.ru

Помощь - Поиск - Пользователи - Календарь

Полная версия этой страницы: Помогите оптимизировать

Форум разработчиков электроники ELECTRONIX.ru > Микроконтроллеры (MCs) > AVR

ScrambledStamp

Oct 8 2008, 16:21

Помогите оптимизировать код, надо его сделать побыстрее, очень не хочется уменьшать разрядность. .

unsigned char pwma[256], pwmb[256], pwmc[256];
unsigned char pwmstep;

// PWM main interrupt
interrupt [TIM2_COMP] void timer2_comp_isr(void)
{
// Place your code here
PORTA=pwma[pwmstep];
PORTB=pwmb[pwmstep];
PORTC=pwmc[pwmstep];
pwmstep++;
}

Компилятор (кодевижн) выдает такой листинг:

Код

;     189 // PWM main interrupt
;     190 interrupt [TIM2_COMP] void timer2_comp_isr(void)
;     191 {
_timer2_comp_isr:
    ST   -Y,R30
    ST   -Y,R31
    IN   R30,SREG
    ST   -Y,R30
;     192 // Place your code here
;     193 PORTA=pwma[pwmstep];
    MOV  R30,R9
    LDI  R31,0
    SUBI R30,LOW(-_pwma)
    SBCI R31,HIGH(-_pwma)
    LD   R30,Z
    OUT  0x1B,R30
;     194 PORTB=pwmb[pwmstep];
    MOV  R30,R9
    LDI  R31,0
    SUBI R30,LOW(-_pwmb)
    SBCI R31,HIGH(-_pwmb)
    LD   R30,Z
    OUT  0x18,R30
;     195 PORTC=pwmc[pwmstep];
    MOV  R30,R9
    LDI  R31,0
    SUBI R30,LOW(-_pwmc)
    SBCI R31,HIGH(-_pwmc)
    LD   R30,Z
    OUT  0x15,R30
;     196 pwmstep++;
    INC  R9
;     197 }
_0xF0:
    LD   R30,Y+
    OUT  SREG,R30
    LD   R31,Y+
    LD   R30,Y+
    RETI
;     198

Огурцов

Oct 8 2008, 17:16

interrupt [TIM2_COMP] void timer2_comp_isr(void)
{
PORTA=pwm[pwmstep++];
PORTB=pwm[pwmstep++];
PORTC=pwm[pwmstep++];
}

WHALE

Oct 8 2008, 17:54

Может,все-таки
{
PORTA=pwm[pwmstep];
PORTB=pwm[pwmstep];
PORTC=pwm[pwmstep++];
}

sergeeff

Oct 8 2008, 18:14

Можно попробовать так (компилятора нет под рукой для AVR):

Код

typedef struct
{
  unsigned char a;
  unsigned char b;
  unsigned char c;
} PWM;

PWM pwm[256];
unsigned  char pwmstep = 0;
interrupt [TIM2_COMP] void timer2_comp_isr(void)
{
  // Place your code here
  PWM *tmp = &pwm[pwmstep++];
  PORTA=tmp->a;
  PORTB=tmp->b;
  PORTC=tmp->c;
}

SysRq

Oct 8 2008, 18:30

Я идею подам, остальные результативно поругают

Из трех массивов сделать один, расположив данные из них как [pwma0][pwmb0][pwmc0]...[pwmaN][pwmbN][pwmcN], и:

Код

PORTA = thatArray[pwmstep];
PORTB = thatArray[pwmstep + 1];
PORTC = thatArray[pwmstep + 2];
pwmstep += 3;

Но ручками переписать на asm'е было бы самое то (он для того и нужен - оптимизировать).

DpInRock

Oct 8 2008, 21:13

Тогда уж так:

Цитата

PORTA = thatArray[pwmstep++];
PORTB = thatArray[pwmstep ++];
PORTC = thatArray[pwmstep ++];

Скорее всего именно так будет самое короткое.

Tiro

Oct 8 2008, 21:54

Мне кажется, постановка задачи немного неполна: насчитаны ли массивы заранее? Или они считаются между прерываниями?

Если считаются по ходу времени, то лучше иметь 3 глобальные переменные.

Теперь по существу. K&R говорят, что быстрее всего изменяется последний индекс массива. То есть массив pwm[256][3] даст самый быстрый доступ к элементам. Об этом уже сказали неявно предыдущие ораторы. Из практических советов - следует избегать адресной арифметики в прерывании в зависимости от мощности оптимизатора. Возможно, потребуется ручками указать последовательность действий. Можно написать так (не проверял, только для иллюстрации идеи):

unsigned char pwm [256] [3];
volatile unsigned char pwmstep;

// PWM main interrupt
interrupt [TIM2_COMP] void timer2_comp_isr(void)
{
// Place your code here
register unsigned char step = pwmstep;
register unsigned char * sample = pwm [step];
PORTA=sample[0]; // *(sample ++)
PORTB=sample[1]; // *(sample ++)
PORTC=sample[2]; // *(sample ++)
step++;
pwmstep = step;
}

Сергей Борщ

Oct 9 2008, 00:09

Цитата(sergeeff @ Oct 8 2008, 21:14)

Можно попробовать так (компилятора нет под рукой для AVR):

Навскидку: размер получившегося массива 3 байта, компилятор будет вызывать умножение на 3. Можно попробовать вот так:

Код

typedef struct
{
    uint8_t a;
    uint8_t b;
    uint8_t c;
} pwm_point_t

union
{
    pwm_point_t point[256];
    uint8_t raw[];
} PWM;
uint8_t *pIndex = PWM.raw;

// PWM main interrupt
interrupt [TIM2_COMP] void timer2_comp_isr(void)
{
    // Place your code here
    PORTA = *pIndex++;
    PORTB = *pIndex++;
    PORTC = *pIndex++;
    if(pIndex == (uint8_t *)(&PWM + 1))
    {
        pIndex = PWM.raw;
    }
}

PWM.point[x] использовать для заполнения массива. По ним тоже можно шагать указателем.

Огурцов

Oct 9 2008, 06:49

Цитата(Сергей Борщ @ Oct 9 2008, 00:09)

PORTA = *pIndex++;

На сколько я помню свои эксперименты, результат компиляции будет совершенно одинаков с PORTA=pwm[pwmstep++];

Сергей Борщ

Oct 9 2008, 07:42

Цитата(Огурцов @ Oct 9 2008, 09:49)

На сколько я помню свои эксперименты, результат компиляции будет совершенно одинаков с PORTA=pwm[pwmstep++];

Не должен. *pIndex++ указателю один раз за 256 итераций присваивается значение адреса, и дальше вычислять смещение уже не нужно. Собственно проверить-то просто:

CODE

typedef struct
{
    uint8_t a;
    uint8_t b;
    uint8_t c;
} pwm_point_t;

union
{
    pwm_point_t point[256];
    uint8_t raw[];
} PWM;
uint8_t *pIndex = PWM.raw;
uint16_t Index;
// PWM main interrupt
ISR(TIMER1_OVF_vect)
{
    // Place your code here
    uint8_t *pTmp = pIndex;
    PORTD = *pTmp++;
    PORTB = *pTmp++;
    PORTC = *pTmp++;
    if(++pTmp == (uint8_t *)(&PWM + 1))
    {
        pTmp = PWM.raw;
    }
    pIndex = pTmp;
}
ISR(TIMER0_OVF_vect)
{
    // Place your code here
    uint16_t Tmp = Index;
    PORTD = PWM.raw[Tmp++];
    PORTB = PWM.raw[Tmp++];
    PORTC = PWM.raw[Tmp++];
    if(++Tmp == sizeof(PWM.raw))
        Tmp = 0;
    Index = Tmp;
}

и листинг (WinAVR).
Первый вариант:

CODE

             		.section	.text.__vector_9,"ax",@progbits
             	.global	__vector_9
             	__vector_9:
             	.LFB25:
             	.LSM0:
             	/* prologue: frame size=0 */
0000 1F92      		push __zero_reg__
0002 0F92      		push __tmp_reg__
0004 0FB6      		in __tmp_reg__,__SREG__
0006 0F92      		push __tmp_reg__
0008 1124      		clr __zero_reg__
GAS LISTING D:/Temp/ccreYbyY.s 			page 2


000a 8F93      		push r24
000c AF93      		push r26
000e BF93      		push r27
0010 CF93      		push r28
0012 DF93      		push r29
0014 EF93      		push r30
0016 FF93      		push r31
             	/* prologue end (size=12) */
             	.LBB19:
             	.LSM1:
0018 A091 0000 		lds r26,pIndex	 ;  pTmp.68, pIndex
001c B091 0000 		lds r27,(pIndex)+1	 ;  pTmp.68, pIndex
             	.LVL0:
             	.LSM2:
0020 FD01      		movw r30,r26	 ;  pTmp.69, pTmp.68
             	.LVL1:
0022 8191      		ld r24,Z+	 ;  D.2508,
0024 82BB      		out 50-0x20,r24	 ; , D.2508
             	.LSM3:
0026 ED01      		movw r28,r26	 ; , pTmp.68
0028 8981      		ldd r24,Y+1	 ;  temp.66,
002a 88BB      		out 56-0x20,r24	 ; , temp.66
             	.LSM4:
002c 8181      		ldd r24,Z+1	 ;  temp.67,
002e 85BB      		out 53-0x20,r24	 ; , temp.67
             	.LSM5:
0030 1496      		adiw r26,4	 ;  pTmp,
             	.LVL2:
0032 80E0      		ldi r24,hi8(PWM+768)	 ; ,
0034 A030      		cpi r26,lo8(PWM+768)	 ;  pTmp,
0036 B807      		cpc r27,r24	 ;  pTmp,
0038 01F4      		brne .L2	 ; ,
             	.LSM6:
003a A0E0      		ldi r26,lo8(PWM)	 ;  pTmp,
003c B0E0      		ldi r27,hi8(PWM)	 ;  pTmp,
             	.L2:
             	.LSM7:
003e B093 0000 		sts (pIndex)+1,r27	 ;  pIndex, pTmp
0042 A093 0000 		sts pIndex,r26	 ;  pIndex, pTmp
             	.LBE19:
             	/* epilogue: frame size=0 */
0046 FF91      		pop r31
0048 EF91      		pop r30
004a DF91      		pop r29
004c CF91      		pop r28
004e BF91      		pop r27
0050 AF91      		pop r26
0052 8F91      		pop r24
0054 0F90      		pop __tmp_reg__
0056 0FBE      		out __SREG__,__tmp_reg__
0058 0F90      		pop __tmp_reg__
005a 1F90      		pop __zero_reg__
005c 1895      		reti

Второй вариант:

CODE

             		.section	.text.__vector_8,"ax",@progbits
             	.global	__vector_8
             	__vector_8:
             	.LFB26:
             	.LSM8:
             	/* prologue: frame size=0 */
0000 1F92      		push __zero_reg__
0002 0F92      		push __tmp_reg__
0004 0FB6      		in __tmp_reg__,__SREG__
0006 0F92      		push __tmp_reg__
0008 1124      		clr __zero_reg__
000a 2F93      		push r18
000c 4F93      		push r20
000e 5F93      		push r21
0010 8F93      		push r24
0012 9F93      		push r25
0014 AF93      		push r26
0016 BF93      		push r27
0018 EF93      		push r30
001a FF93      		push r31
             	/* prologue end (size=14) */
             	.LBB20:
             	.LSM9:
001c 4091 0000 		lds r20,IndexRaw	 ;  Tmp, IndexRaw
0020 5091 0000 		lds r21,(IndexRaw)+1	 ;  Tmp, IndexRaw
             	.LVL3:
             	.LSM10:
0024 80E0      		ldi r24,lo8(PWM)	 ;  tmp47,
0026 90E0      		ldi r25,hi8(PWM)	 ;  tmp47,
0028 FA01      		movw r30,r20	 ;  tmp48, Tmp
002a E80F      		add r30,r24	 ;  tmp48, tmp47
002c F91F      		adc r31,r25	 ;  tmp48, tmp47
002e 2081      		ld r18,Z	 ;  D.2520, PWM.raw
0030 22BB      		out 50-0x20,r18	 ; , D.2520
0032 FA01      		movw r30,r20	 ;  Tmp.97, Tmp
             	.LVL4:
0034 3196      		adiw r30,1	 ;  Tmp.97,
             	.LSM11:
0036 DF01      		movw r26,r30	 ;  tmp51, Tmp.97
0038 A80F      		add r26,r24	 ;  tmp51, tmp47
003a B91F      		adc r27,r25	 ;  tmp51, tmp47
003c 2C91      		ld r18,X	 ;  temp.100, PWM.raw
003e 28BB      		out 56-0x20,r18	 ; , temp.100
             	.LSM12:
0040 FD01      		movw r30,r26	 ;  Tmp.97, tmp51
0042 8181      		ldd r24,Z+1	 ;  temp.101, PWM.raw
0044 85BB      		out 53-0x20,r24	 ; , temp.101
             	.LSM13:
0046 4C5F      		subi r20,lo8(-(4))	 ;  Tmp,
0048 5F4F      		sbci r21,hi8(-(4))	 ;  Tmp,
004a 5093 0000 		sts (IndexRaw)+1,r21	 ;  IndexRaw, Tmp
004e 4093 0000 		sts IndexRaw,r20	 ;  IndexRaw, Tmp
             	.LBE20:
             	/* epilogue: frame size=0 */
0052 FF91      		pop r31
0054 EF91      		pop r30
0056 BF91      		pop r27
0058 AF91      		pop r26
005a 9F91      		pop r25
005c 8F91      		pop r24
005e 5F91      		pop r21
0060 4F91      		pop r20
0062 2F91      		pop r18
0064 0F90      		pop __tmp_reg__
0066 0FBE      		out __SREG__,__tmp_reg__
0068 0F90      		pop __tmp_reg__
006a 1F90      		pop __zero_reg__
006c 1895      		reti

Третий вариант:

CODE

             		.section	.text.__vector_4,"ax",@progbits
             	.global	__vector_4
             	__vector_4:
             	.LFB27:
             	.LSM14:
             	/* prologue: frame size=0 */
0000 1F92      		push __zero_reg__
0002 0F92      		push __tmp_reg__
0004 0FB6      		in __tmp_reg__,__SREG__
0006 0F92      		push __tmp_reg__
0008 1124      		clr __zero_reg__
000a 2F93      		push r18
000c 8F93      		push r24
000e 9F93      		push r25
0010 EF93      		push r30
0012 FF93      		push r31
             	/* prologue end (size=10) */
             	.LBB21:
             	.LSM15:
0014 2091 0000 		lds r18,Index	 ;  Tmp, Index
             	.LVL5:
             	.LSM16:
0018 822F      		mov r24,r18	 ;  D.2529, Tmp
001a 9927      		clr r25	 ;  D.2529
001c FC01      		movw r30,r24	 ;  tmp50, D.2529
001e EE0F      		lsl r30	 ;  tmp50
0020 FF1F      		rol r31	 ;  tmp50
             	.LVL6:
0022 E80F      		add r30,r24	 ;  tmp50, D.2529
0024 F91F      		adc r31,r25	 ;  tmp50, D.2529
0026 E050      		subi r30,lo8(-(PWM))	 ;  tmp50,
0028 F040      		sbci r31,hi8(-(PWM))	 ;  tmp50,
002a 8081      		ld r24,Z	 ;  D.2530, <variable>.a
002c 82BB      		out 50-0x20,r24	 ; , D.2530
             	.LSM17:
002e 8181      		ldd r24,Z+1	 ;  D.2532, <variable>.b
0030 88BB      		out 56-0x20,r24	 ; , D.2532
             	.LSM18:
0032 8281      		ldd r24,Z+2	 ;  D.2534, <variable>.c
0034 85BB      		out 53-0x20,r24	 ; , D.2534
             	.LBE21:
             	/* epilogue: frame size=0 */
0036 FF91      		pop r31
0038 EF91      		pop r30
GAS LISTING D:/Temp/ccreYbyY.s 			page 5


003a 9F91      		pop r25
003c 8F91      		pop r24
003e 2F91      		pop r18
0040 0F90      		pop __tmp_reg__
0042 0FBE      		out __SREG__,__tmp_reg__
0044 0F90      		pop __tmp_reg__
0046 1F90      		pop __zero_reg__
0048 1895      		reti

Итого, победил sergeeff. Хотя другой компилятор может дать другие результаты. Совершенно непонятно, зачем компилятор в первом случае задействовал Y.

Огурцов

Oct 9 2008, 18:21

Цитата(Сергей Борщ @ Oct 9 2008, 07:42)

Не должен.

Таки да, сэкономил полсотни байт. Видимо, куда-то не туда я смотрел. Там было копирование из флеша в массив vs загрузка массива константами. Но копирование по-прежнему побеждает, не смотря на то, что загрузка уменьшилась раза в два после замены индекса на указатель. Видимо, есть еще куда колдовать )

Огурцов

Oct 9 2008, 20:04

Однако, радует то, что я все же не сглючил.
Вот во что компилится инициализация массива с использованием индекса

Код

@000000D0: Get_serial_number
37:       {
+000000D0:   01FC        MOVW    R30,R24          Copy register pair
39:           aValue[0] = (unsigned char)(Device_serial_number_3 >> 24);
+000000D1:   ED83        LDI     R24,0xD3         Load immediate
+000000D2:   8380        STD     Z+0,R24          Store indirect with displacement
40:           aValue[1] = (unsigned char)(Device_serial_number_3 >> 16);
+000000D3:   E987        LDI     R24,0x97         Load immediate
+000000D4:   8381        STD     Z+1,R24          Store indirect with displacement
41:           aValue[2] = (unsigned char)(Device_serial_number_3 >> 8);
+000000D5:   E585        LDI     R24,0x55         Load immediate
+000000D6:   8382        STD     Z+2,R24          Store indirect with displacement
42:           aValue[3] = (unsigned char)(Device_serial_number_3 >> 0);
+000000D7:   E082        LDI     R24,0x02         Load immediate
+000000D8:   8383        STD     Z+3,R24          Store indirect with displacement
43:           aValue[4] = (unsigned char)(Device_serial_number_2 >> 24);
+000000D9:   E284        LDI     R24,0x24         Load immediate
+000000DA:   8384        STD     Z+4,R24          Store indirect with displacement

А это с использованием указателя

Код

+000000D0:   01FC        MOVW    R30,R24          Copy register pair
56:           *aValue++ = (unsigned char)(Device_serial_number_3 >> 24);
+000000D1:   ED83        LDI     R24,0xD3         Load immediate
+000000D2:   9381        ST      Z+,R24           Store indirect and postincrement
57:           *aValue++ = (unsigned char)(Device_serial_number_3 >> 16);
+000000D3:   E987        LDI     R24,0x97         Load immediate
+000000D4:   9381        ST      Z+,R24           Store indirect and postincrement
58:           *aValue++ = (unsigned char)(Device_serial_number_3 >> 8);
+000000D5:   E585        LDI     R24,0x55         Load immediate
+000000D6:   9381        ST      Z+,R24           Store indirect and postincrement
59:           *aValue++ = (unsigned char)(Device_serial_number_3 >> 0);
+000000D7:   E082        LDI     R24,0x02         Load immediate
+000000D8:   9381        ST      Z+,R24           Store indirect and postincrement
60:           *aValue++ = (unsigned char)(Device_serial_number_2 >> 24);
+000000D9:   E284        LDI     R24,0x24         Load immediate
+000000DA:   8380        STD     Z+0,R24          Store indirect with displacement

Т.е. разница, конечно, есть, но только не в размере и не в скорости выполнения. И такое сохранится до размера массива до 64 байт, т.е. пока будет хватать смещения (6 бит) в команде STD Z+disp, *. Для LDD могло бы быть так же.

Maik-vs

Oct 14 2008, 07:38

Цитата(SysRq @ Oct 8 2008, 22:30)

Из трех массивов сделать один, расположив данные из них как [pwma0][pwmb0][pwmc0]...[pwmaN]

Так лучше. Тогда получается

Код

LD     Yh,high(pwmstep)
LD     Yl,low(pwmstep)        ; load pointer

LD     tmp,Y+
OUT   PORTA,tmp
LD     tmp,Y+
OUT   PORTB,tmp
LD     tmp,Y+
OUT   PORTC,tmp

ST     high(pwmstep),Yh
ST     low(pwmstep),Yl        ; save pointer

17 циклов.

Если unsigned char pwm [3][256], то нужно добавить inc Yh после каждого OUT - это дополнительно 3 цикла, плюс вычислить новый pwmstep это пахнет ещё 4-мя цмклами.

Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.