реклама на сайте
подробности

 
 
10 страниц V   1 2 3 > »   
Reply to this topicStart new topic
> Voice recognition with AVR
Johan Krava
сообщение Oct 18 2008, 14:08
Сообщение #1





Группа: Новичок
Сообщений: 3
Регистрация: 11-10-08
Пользователь №: 40 864



Anybody has experience with voice recognition? I am looking for some code library and examples for AVR. All ideas are welcome. Thanks.


--------------------
avrmicrocontrollers.com - AVR Microcontrollers
Go to the top of the page
 
+Quote Post
Flasher
сообщение Oct 18 2008, 18:42
Сообщение #2


Местный
***

Группа: Свой
Сообщений: 374
Регистрация: 6-09-05
Из: Тирасполь, Приднестровье
Пользователь №: 8 294



Ну да, так тебе все и выложили, и еще в исходниках. Ты бы еще на арифмометре сделал.
Go to the top of the page
 
+Quote Post
defunct
сообщение Oct 18 2008, 21:13
Сообщение #3


кекс
******

Группа: Свой
Сообщений: 3 825
Регистрация: 17-12-05
Из: Киев
Пользователь №: 12 326



Key word - FFT.
Go to the top of the page
 
+Quote Post
Flasher
сообщение Oct 18 2008, 21:16
Сообщение #4


Местный
***

Группа: Свой
Сообщений: 374
Регистрация: 6-09-05
Из: Тирасполь, Приднестровье
Пользователь №: 8 294



Цитата(defunct @ Oct 19 2008, 01:13) *
Key word - FFT.

ага, еще и фантастику почитать посоветуйте...с фурье человек далеко уйдет...
Go to the top of the page
 
+Quote Post
defunct
сообщение Oct 18 2008, 22:11
Сообщение #5


кекс
******

Группа: Свой
Сообщений: 3 825
Регистрация: 17-12-05
Из: Киев
Пользователь №: 12 326



Цитата(Flasher @ Oct 19 2008, 00:16) *
ага, еще и фантастику почитать посоветуйте...с фурье человек далеко уйдет...

Ну а как иначе?
С фурье все достаточно просто. Прощелкали спектр, сравнили со спектром эталона, получили 20 или более % подобия - распознали.

Предложите свой вариант вместо того чтобы воздух сотрясать ворчанием, не несущим никакой полезной нагрузки.
Go to the top of the page
 
+Quote Post
DRUID3
сообщение Oct 18 2008, 23:35
Сообщение #6


山伏
*****

Группа: Свой
Сообщений: 1 827
Регистрация: 3-08-06
Из: Kyyiv
Пользователь №: 19 294



Цитата(defunct @ Oct 19 2008, 01:11) *
Ну а как иначе?
С фурье все достаточно просто. Прощелкали спектр, сравнили со спектром эталона, получили 20 или более % подобия - распознали.

biggrin.gif А зачем? Уже отменили корреляцию во временнОй области? И еще, а что Вы влаживаете в слова 20% подобия? Это очень мало, между прочим...

Ну а уж если говорить о быстрых методах то быстрое вейвлет преобразование побыстрее будет(если это БВП по Добеши)...


--------------------
Нас помнят пока мы мешаем другим...
//--------------------------------------------------------
Хороший блатной - мертвый...
//--------------------------------------------------------
Нет старик, это те дроиды которых я ищу...
Go to the top of the page
 
+Quote Post
ATLab
сообщение Oct 19 2008, 01:34
Сообщение #7


Участник
*

Группа: Участник
Сообщений: 36
Регистрация: 31-01-06
Пользователь №: 13 785



Ой, ну автор насмешил! На PC эта хрень толком не работает, а он на АВР-ке собрался...


Цитата(defunct @ Oct 19 2008, 08:11) *
Ну а как иначе?
С фурье все достаточно просто. Прощелкали спектр, сравнили со спектром эталона, получили 20 или более % подобия - распознали.
Речь - это не DTMF, таким наскоком ее не взять. Люди разные, голоса разные, а говорят одно и то же - фурье ничем не поможет. Да даже один и тот же голос, в разном настроении и с разной громкостью даст разные спектры.
Читайте про цифровую обработку речи. Мне, когда ее почитал, чуть не вывихнув мозги с кепстрами, стало понятно - ловить тут нечего.
Go to the top of the page
 
+Quote Post
Огурцов
сообщение Oct 19 2008, 01:39
Сообщение #8


Гуру
******

Группа: Участник
Сообщений: 3 928
Регистрация: 28-03-07
Из: РФ
Пользователь №: 26 588



Цитата(ATLab @ Oct 19 2008, 01:34) *
Мне, когда ее почитал, чуть не вывихнув мозги с кепстрами, стало понятно - ловить тут нечего.

М.б. и есть чего, но уж только не на AVR. Хотя если в оффлайн...
Go to the top of the page
 
+Quote Post
defunct
сообщение Oct 19 2008, 04:46
Сообщение #9


кекс
******

Группа: Свой
Сообщений: 3 825
Регистрация: 17-12-05
Из: Киев
Пользователь №: 12 326



Цитата(ATLab @ Oct 19 2008, 04:34) *
Речь - это не DTMF, таким наскоком ее не взять. Люди разные, голоса разные, а говорят одно и то же - фурье ничем не поможет.

Слова состоят из звуков, звуки имеют свой спектр (спектр может быть сдвинут, но картина в общем одинаковая, анализировать надо производную спектра).
У меня есть рабочая программа на базе FFT и анализа спектра, которая реально распознает речь! Она опровергает ваше опасение насчет "не поможет" - поможет еще как. Анализ спектра позволяет достаточно точно выделить звуки, основная сложность в этой задаче это определить границы между звуками, но и тут если не рассматривать все случаи жизни, а принять фиксированный интервал выборки в 10ms и по ним шлепать, то тоже проблем нет.

Цитата
Ой, ну автор насмешил! На PC эта хрень толком не работает, а он на АВР-ке собрался...

А как же голосовой набор в телефонах? Ведь это распознавание речи и старенький Samsung N100 если не ошибаюсь, имея на борту скромный LPC ARM успешно справлялся этой задачкой. Эрики старые тоже. Ларчик на самом деле просто открывается, просто видать PC программеры - тупые (или ставят перед собой очень необъятную задачу - не только распознать но и понять smile.gif ).

PS: Кстати для DTMF детекта FFT избыточно.

Цитата(DRUID3 @ Oct 19 2008, 02:35) *
И еще, а что Вы вкладываете в слова 20% подобия? Это очень мало, между прочим...

Это зависит от метода сравнения. В моем случае 20% - это много.
Грубо не вдаваясь в детали - представим, что спектр входного сигнала отмасштабирован так, что интеграл разности спекторв входного сигнала и эталонного на отрезке от 0 до Fd будет минимальным. Полное совпадение - когда интеграл равен 0. Полное несовпадение - равен X.
20% подобия соотв. - 0.8*X.
Go to the top of the page
 
+Quote Post
NetTracer
сообщение Oct 19 2008, 10:20
Сообщение #10





Группа: Участник
Сообщений: 6
Регистрация: 16-12-05
Пользователь №: 12 291



Цитата(Огурцов @ Oct 19 2008, 04:39) *
М.б. и есть чего, но уж только не на AVR. Хотя если в оффлайн...

А чем Вам AVR не подходит? Фигасе 20Мипс уже "не производительность" lol.gif, Куда катится этот мир? wacko.gif
Для сомневающихся- готовый проект, читайте тут например:
http://instruct1.cit.cornell.edu/courses/e...L362/index.html
Go to the top of the page
 
+Quote Post
Flasher
сообщение Oct 19 2008, 10:54
Сообщение #11


Местный
***

Группа: Свой
Сообщений: 374
Регистрация: 6-09-05
Из: Тирасполь, Приднестровье
Пользователь №: 8 294



ну с этого готового проекта я как-то начинал... результат впечатляюще отстойный. Даже в их рабочих исходниках косяков немерянно. На авр не добиться серъезного уровня.
Go to the top of the page
 
+Quote Post
NetTracer
сообщение Oct 19 2008, 11:36
Сообщение #12





Группа: Участник
Сообщений: 6
Регистрация: 16-12-05
Пользователь №: 12 291



Цитата(Flasher @ Oct 19 2008, 13:54) *
... На авр не добиться серъезного уровня.

Ну на вкус и цвет...
Кому и СТАРТ СТОП достаточно а кому нужно скоротать вечер в философской беседе с контроллером на тему "bit | ~bit" lol.gif

PS Сорри за оффтоп

Сообщение отредактировал NetTracer - Oct 19 2008, 11:36
Go to the top of the page
 
+Quote Post
Огурцов
сообщение Oct 19 2008, 13:27
Сообщение #13


Гуру
******

Группа: Участник
Сообщений: 3 928
Регистрация: 28-03-07
Из: РФ
Пользователь №: 26 588



Цитата(NetTracer @ Oct 19 2008, 10:20) *
Фигасе 20Мипс уже "не производительность"

Это восьмибитные мипсы. Т.е. когда нормальный DSP _за те же деньги_ будет делать 2000 бабочек в uS, AVR едва ли справится с одной. Кроме того нужно где-то хранить фонемы и слова, что для AVR тоже малореально, в условиях реалтайм.
Хотя я с Вами сразу же соглашусь, при условии, что покажете работающий пример хотя бы на 20 элементарных команд. Надеюсь, на распознавание всего языка (хотя бы 20 тысяч слов) на AVR Вы не претендуете.


Цитата(defunct @ Oct 19 2008, 04:46) *
А как же голосовой набор в телефонах?

Баловался я когда-то с Siemens S45. Не знаю, какой там проц и какой был применен алгоритм, но распознование команд было отвратительно - нужно было сделать десяток попыток, чтобы произнести команду так же, как она была записана. Такой футбол нам не нужен(с)
Go to the top of the page
 
+Quote Post
ARV
сообщение Oct 19 2008, 16:05
Сообщение #14


Профессионал
*****

Группа: Свой
Сообщений: 1 143
Регистрация: 30-09-08
Из: Новочеркасск
Пользователь №: 40 581



а что скажете по этому поводу: http://qrx.narod.ru/avt/mgv_gu.htm ? по-моему, ПИК в 4 раза менее производительный контроллер, если сравнивать с AVR той же тактовой частоты... и, как я понимаю, пахает - не жужжит...


--------------------
Я бы взял частями... но мне надо сразу.
Go to the top of the page
 
+Quote Post
Rst7
сообщение Oct 19 2008, 16:27
Сообщение #15


Йа моск ;)
******

Группа: Модераторы
Сообщений: 4 345
Регистрация: 7-07-05
Из: Kharkiv-city
Пользователь №: 6 610



Цитата
Это восьмибитные мипсы.


Ага... Чернила для восьмого класса. Мы тут выясняли соотношение AVR'овских и ARM'овских мипсов. Примерно в два раза. Если сравнивать с BF - то в 4 раза.

Цитата
Т.е. когда нормальный DSP _за те же деньги_


Ну-ка, огласите нормальный DSP за 1-2 бакса?

Цитата
Баловался я когда-то с Siemens S45


Не знаю, не знаю. На Осле (SL45) вполне вменяемо работало голосовое управление. Проц там, кстати, C166. Про алгоритм - не скажу, не разбирался. При желании - могу посмотреть, благо idb-файл не потерялся, место, где смотреть, примерно знаю...

Цитата
а что скажете по этому поводу

Прикольно smile.gif Интересно, как оно в живую, а не в описании?


--------------------
"Практика выше (теоретического) познания, ибо она имеет не только достоинство всеобщности, но и непосредственной действительности." - В.И. Ленин
Go to the top of the page
 
+Quote Post

10 страниц V   1 2 3 > » 
Reply to this topicStart new topic
3 чел. читают эту тему (гостей: 3, скрытых пользователей: 0)
Пользователей: 0

 


RSS Текстовая версия Сейчас: 18th July 2025 - 11:54
Рейтинг@Mail.ru


Страница сгенерированна за 0.01506 секунд с 7
ELECTRONIX ©2004-2016