реклама на сайте
подробности

 
 
> Как правильно в плис делить
sergey sva
сообщение Jul 15 2015, 03:26
Сообщение #1


Гуру
******

Группа: Свой
Сообщений: 2 546
Регистрация: 23-05-07
Из: Самарская область Сызрань
Пользователь №: 27 923



Как правильно в плис делить, очень медленная операция, на высокой частоте появляются слаки. Если сдвигом то можно поделить на 2 4 8 16.... а если нужно поделить на 9 или 5?
Go to the top of the page
 
+Quote Post
2 страниц V   1 2 >  
Start new topic
Ответов (1 - 20)
Barktail
сообщение Jul 15 2015, 03:36
Сообщение #2


Участник
*

Группа: Участник
Сообщений: 63
Регистрация: 14-12-11
Пользователь №: 68 851



Мне вот если делители известны заранее нравится умножать делимое на (2^n/делитель), а затем полученное число делить на 2^n. Можно даже составить таблицу соответствия делитель--множитель.
Go to the top of the page
 
+Quote Post
Golikov A.
сообщение Jul 15 2015, 03:59
Сообщение #3


Гуру
******

Группа: Свой
Сообщений: 4 256
Регистрация: 17-02-06
Пользователь №: 14 454



Делить правильно делителем.
Видов делителей великое множество, надо реализовать один из них и все.

Самый простой реализует метод деления столбиком.
Делитель двигаете максимально вправо, сравниваете со старшей частью делимого, если оно больше 1 и вычитаете делитель, остаток сносите, если нет 0, и просто сносите остаток, сдвигаете делитель и так далее...

а можно так

Код
reg [15:0] A;
reg [15:0] B;
reg [15:0] C;

always...
C <= A/B;


и посмотреть вдруг то что придумает синтезатор вас устроитsm.gif
Go to the top of the page
 
+Quote Post
sergey sva
сообщение Jul 15 2015, 04:15
Сообщение #4


Гуру
******

Группа: Свой
Сообщений: 2 546
Регистрация: 23-05-07
Из: Самарская область Сызрань
Пользователь №: 27 923



Вариантов много, но нужно еще и быстрый.
То что синтезатор сделал по времени не проходит слаки появляются.
Go to the top of the page
 
+Quote Post
dima32rus
сообщение Jul 15 2015, 04:43
Сообщение #5


Частый гость
**

Группа: Свой
Сообщений: 134
Регистрация: 9-11-12
Из: г. Брянск
Пользователь №: 74 311



А что если задействовать аппаратный делитель? У Альтеры его можно конвейеризировать, устанавливая параметр pipeline. С Ксайлинксами не работал, но подозреваю, что там тоже есть что-то подобное. По идее, при увеличении ступеней максимальная частота тоже должна рости. Но это если Ваш алгоритм допускает конвейеризацию данных.

Вернее, не аппаратный, а библиотечный. Прошу прощения за неточность
Go to the top of the page
 
+Quote Post
Maverick
сообщение Jul 15 2015, 05:04
Сообщение #6


я только учусь...
******

Группа: Модераторы
Сообщений: 3 447
Регистрация: 29-01-07
Из: Украина
Пользователь №: 24 839



Цитата(sergey sva @ Jul 15 2015, 06:26) *
Как правильно в плис делить, очень медленная операция, на высокой частоте появляются слаки. Если сдвигом то можно поделить на 2 4 8 16.... а если нужно поделить на 9 или 5?

можете посмотреть это


--------------------
If it doesn't work in simulation, it won't work on the board.

"Ты живешь в своих поступках, а не в теле. Ты — это твои действия, и нет другого тебя" Антуан де Сент-Экзюпери повесть "Маленький принц"
Go to the top of the page
 
+Quote Post
des00
сообщение Jul 15 2015, 05:05
Сообщение #7


Вечный ламер
******

Группа: Модераторы
Сообщений: 7 248
Регистрация: 18-03-05
Из: Томск
Пользователь №: 3 453



Цитата(sergey sva @ Jul 15 2015, 12:15) *
Вариантов много, но нужно еще и быстрый.
То что синтезатор сделал по времени не проходит слаки появляются.

берете деление столбиком и конвейризируете пока не надоест. я делал для сыклона 32 на 16 на 200МГц работает.


--------------------
Go to the top of the page
 
+Quote Post
sergey sva
сообщение Jul 15 2015, 05:18
Сообщение #8


Гуру
******

Группа: Свой
Сообщений: 2 546
Регистрация: 23-05-07
Из: Самарская область Сызрань
Пользователь №: 27 923



Сейчас попробую, у циклона 3 есть dsp, если их задействовать будет быстрее? квартус сам может их задействовать?

Прикрепленное изображение
Go to the top of the page
 
+Quote Post
Maverick
сообщение Jul 15 2015, 05:22
Сообщение #9


я только учусь...
******

Группа: Модераторы
Сообщений: 3 447
Регистрация: 29-01-07
Из: Украина
Пользователь №: 24 839



Цитата(sergey sva @ Jul 15 2015, 08:18) *
Сейчас попробую, у циклона 3 есть dsp, если их задействовать будет быстрее? квартус сам может их задействовать?

Прикрепленное изображение

зачем для реализации деления нужны умножители (DSP блоки)?


--------------------
If it doesn't work in simulation, it won't work on the board.

"Ты живешь в своих поступках, а не в теле. Ты — это твои действия, и нет другого тебя" Антуан де Сент-Экзюпери повесть "Маленький принц"
Go to the top of the page
 
+Quote Post
sergey sva
сообщение Jul 15 2015, 05:42
Сообщение #10


Гуру
******

Группа: Свой
Сообщений: 2 546
Регистрация: 23-05-07
Из: Самарская область Сызрань
Пользователь №: 27 923



Если на нем сделать сдвиг, что бы сдвиг выполнился за один так. но это так мысли еще не подумал ).


Go to the top of the page
 
+Quote Post
Maverick
сообщение Jul 15 2015, 05:45
Сообщение #11


я только учусь...
******

Группа: Модераторы
Сообщений: 3 447
Регистрация: 29-01-07
Из: Украина
Пользователь №: 24 839



Цитата(sergey sva @ Jul 15 2015, 08:42) *
Если на нем сделать сдвиг, что бы сдвиг выполнился за один так. но это так мысли еще не подумал ).

а Вы не хотите для начала взять для начала за основу предложенный мной в сообщеннии 6 (через ссылку) реализацию/алгоритм?



--------------------
If it doesn't work in simulation, it won't work on the board.

"Ты живешь в своих поступках, а не в теле. Ты — это твои действия, и нет другого тебя" Антуан де Сент-Экзюпери повесть "Маленький принц"
Go to the top of the page
 
+Quote Post
sergey sva
сообщение Jul 15 2015, 06:14
Сообщение #12


Гуру
******

Группа: Свой
Сообщений: 2 546
Регистрация: 23-05-07
Из: Самарская область Сызрань
Пользователь №: 27 923



Благодарю за информацию, ссылок много сейчас смотрю.
Go to the top of the page
 
+Quote Post
Kuzmi4
сообщение Jul 15 2015, 06:16
Сообщение #13


Гуру
******

Группа: Свой
Сообщений: 3 304
Регистрация: 13-02-07
Из: 55°55′5″ 37°52′16″
Пользователь №: 25 329



2 Maverick
я так понял, что человеку надо min latency и одновременно max FREQ, вы сделали всё что смогли wink.gif
Go to the top of the page
 
+Quote Post
sergey sva
сообщение Jul 15 2015, 06:32
Сообщение #14


Гуру
******

Группа: Свой
Сообщений: 2 546
Регистрация: 23-05-07
Из: Самарская область Сызрань
Пользователь №: 27 923



Да очень благодарен Maverick по ссылкам есть то что искал раньше.
Как оптимизировать что бы получить min latency max FREQ ?
Битовый сдвиг выполняется за одну операцию, или на каждый бит по такту?
Go to the top of the page
 
+Quote Post
serjj
сообщение Jul 15 2015, 06:39
Сообщение #15


Знающий
****

Группа: Участник
Сообщений: 527
Регистрация: 4-06-14
Из: Санкт-Петербург
Пользователь №: 81 866



И снова CORDIC
Прикрепленный файл  cordic____.pdf ( 1.07 мегабайт ) Кол-во скачиваний: 199

стр 6 документа - умножение с накоплением и деление с накоплением, используются только сложения и сдвиги.

Преимущества
Можно получить fmax > 200 MHz при обработке потока порядка 32 бит и даже больше (конечный результат будет зависеть от ПЛИС)
Можно реализовать большим ресурсами так, что fs = fmax
При fs << fmax очень экономная корка, хотя обычный pipeline дулитель столбиком, про который упоминал des00 может занять меньше ресурсов

Недостатки
Latency = количество итераций * 1/fmax.
При fs = fmax получится довольно толстая корка
Go to the top of the page
 
+Quote Post
Maverick
сообщение Jul 15 2015, 06:49
Сообщение #16


я только учусь...
******

Группа: Модераторы
Сообщений: 3 447
Регистрация: 29-01-07
Из: Украина
Пользователь №: 24 839



Цитата(sergey sva @ Jul 15 2015, 09:32) *


быстрее алгритм Radix 4 division

CODE

#include <stdio.h>
#include <stdlib.h>

/* This code assumes that unsigned short is 16 bits, and unsigned int is 32 bits */

unsigned short radix4_division_u16(unsigned short divisor, unsigned short dividend)
{
unsigned short quotient = 0;
unsigned char i = 16; /* Number of bits to process */

if(dividend == 0)
{
printf("Divide by zero");
exit(0);
}

while(i > 0)
{
unsigned char j;
unsigned int d1,d2,d3;

i -= 2;

d1 = dividend << i;
d2 = dividend << (i+1);
d3 = d1+d2;

if(divisor < d1)
j = 0;
else if(divisor < d2) {
j = 1;
divisor -= d1;
} else if(divisor < d3) {
j = 2;
divisor -= d2;
} else {
j = 3;
divisor -= d3;
}
quotient = (quotient << 2)+j;
}
return quotient;
}

int main(int c, char *v[])
{
int i,j;
for(i = 0; i < 256*256; i++)
{
for(j = 1; j < 256*256; j++)
{
unsigned k = radix4_division_u16(i,j);
if(i/j != k)
{
printf("Error with %i/%i != %i\n",i,j,k);
exit(0);
}
}
if(i%650 == 0)
printf("%2.2f%% tested\n",i*100.0/256/256);
}
return 0;
}


алгоритм по шагам:

CODE
Each step

Inputs:

Existing quotient
Current dividend
Divisor
Clock signal
Bit offset of bits to generate

Constant (generic) information also needed:

Width of Divisor
Width of Quotient
Bit offset of bits to generate

Outputs:

updated quotient
updated dividend
Divisor

It is possible to reduce the length of comparisons - rather than comparing n2-2 bits only 4 bits need subtraction - the lowwer order bits can just be ORed together.

Equations for first step of a/b:

Comparing against divisor
x1 <= (0 & a(n-1 ... n-2)))
y1 <= (OR(b(n-1 ... 2)) & b(1 ... 0))
out1 <= (x-y)(1 ... 0) & a(n-3 ... 0)

Comparing against 2*divisor
x2 <= (0 & a(n-1))
y2 <= (OR(b(n-1 ... 1)) & b(0))
out2 <= (x-y)(0) & a(n-2 ... 0)

Comparing against 3*divisor
sum <= (0 & b(1 ... 0)) + (0 & b(0) & 0)
x3 <= (0 & a(n-1) & a(n-2))
y3 <= (OR(d(n-1 ... 1),sum(2)) & sum(1 ... 0))
out3 <= (x-y)(1 ... 0) & a(n-3 ... 0)

which 'out' is passed to the next stage is selected based on which of out1, out2 or out3 were positive (if any).

If you have n bits, you need 'n/2' stages, and if you number stages from (n/2-1) (dealing to the high bits) to 0 (dealing to bits 1 and 0) the equations become more generic:

For stage i (need to verify!):

Comparing against divisor
x1 <= (0 & a(n-1 ... 2i) )
y1 <= (OR(b(n-1 ... n-2i)) & b(n-2i ... 0))
out1 <= (x-y)(n/2-i-1 ... 0) & a(2i-1 ... 0)

Comparing against 2*divisor
x2 <= (0 & a(n-1 ... 2i+1) )
y2 <= (OR(b(n-1 ... n-2i+1)) & b(0))
out2 <= (x-y)(n/2-2i-2..0) & a(2i-1 ... 0)

Comparing against 3*divisor
sum <= (0 & b(n-2i-1 .. 0)) + (0 & b(n-2i-2 ... 0) & 0)
x3 <= (0 & a(n-1 ... 2i))
y3 <= (OR(d(n-1 ... n-2i),sum(2)) & sum(1 ... 0))
out3 <= (x-y)(n/2-i-1 ... 0) & a(2i-1 ... 0)


PS насчет скорости и кол-во ресурсов не знаю не реализовывал, но вроде считает раза в 2 быстрее (если не изменяет память) предложенного ранее реализации

PS PS есть Radix более высокого прядка , например Radix8

PS PS PS алгоритмы деления на константу - рекомендую к просмотру


--------------------
If it doesn't work in simulation, it won't work on the board.

"Ты живешь в своих поступках, а не в теле. Ты — это твои действия, и нет другого тебя" Антуан де Сент-Экзюпери повесть "Маленький принц"
Go to the top of the page
 
+Quote Post
Fat Robot
сообщение Jul 15 2015, 07:10
Сообщение #17


ʕʘ̅͜ʘ̅ʔ
*****

Группа: Свой
Сообщений: 1 008
Регистрация: 3-05-05
Пользователь №: 4 691



Метод Ньютона-Рафсона и его реализация: Goldschmidt division

The Goldschmidt method is used in AMD Athlon CPUs and later models.
Go to the top of the page
 
+Quote Post
likeasm
сообщение Jul 15 2015, 12:36
Сообщение #18


Частый гость
**

Группа: Участник
Сообщений: 156
Регистрация: 15-04-10
Пользователь №: 56 673



Цитата(Maverick @ Jul 15 2015, 09:22) *
зачем для реализации деления нужны умножители (DSP блоки)?

Можно умножить делимое на число обратное делителю. c=a\b или c=a*(1\b). Алгоритм Кнута кажется.
Go to the top of the page
 
+Quote Post
Kuzmi4
сообщение Jul 15 2015, 14:04
Сообщение #19


Гуру
******

Группа: Свой
Сообщений: 3 304
Регистрация: 13-02-07
Из: 55°55′5″ 37°52′16″
Пользователь №: 25 329



Цитата(likeasm @ Jul 15 2015, 14:36) *
Можно умножить делимое на число обратное делителю...

там выше 8-10 бит на средних С3 это дело просто нет смысла делать.. А довольно часто надо больше бит..
Go to the top of the page
 
+Quote Post
D Mike
сообщение Aug 18 2015, 09:43
Сообщение #20


Участник
*

Группа: Участник
Сообщений: 29
Регистрация: 30-01-07
Из: Петербург
Пользователь №: 24 875



если делимое не более 12 разрядов, делитель=константа и нужно после деления получить целое + остаток, то можно воспользоваться умножением + сдвиг.
например деление переменной(0..1512) на 35 сводится к умножению на 117 и сдвигу на 11. Работает очень быстро sm.gif
Go to the top of the page
 
+Quote Post
Golikov A.
сообщение Aug 18 2015, 11:14
Сообщение #21


Гуру
******

Группа: Свой
Сообщений: 4 256
Регистрация: 17-02-06
Пользователь №: 14 454



да правда быстро, особенно если знаешь сколько будет разделить 2^12 на 35....
любое деление можно свести к умножению на обратное число, так что в вашем случае деление на 35 сводиться к умножению на 1/35, и это так же быстро, потому что тоже самоеwink.gif

и да сдвигать надо на 12, а не 11,
Go to the top of the page
 
+Quote Post

2 страниц V   1 2 >
Reply to this topicStart new topic
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 


RSS Текстовая версия Сейчас: 25th July 2025 - 18:24
Рейтинг@Mail.ru


Страница сгенерированна за 0.01564 секунд с 7
ELECTRONIX ©2004-2016