|
Voice recognition with AVR |
|
|
|
Oct 18 2008, 14:08
|
Группа: Новичок
Сообщений: 3
Регистрация: 11-10-08
Пользователь №: 40 864

|
Anybody has experience with voice recognition? I am looking for some code library and examples for AVR. All ideas are welcome. Thanks.
--------------------
|
|
|
|
|
Oct 18 2008, 21:16
|
Местный
  
Группа: Свой
Сообщений: 374
Регистрация: 6-09-05
Из: Тирасполь, Приднестровье
Пользователь №: 8 294

|
Цитата(defunct @ Oct 19 2008, 01:13)  Key word - FFT. ага, еще и фантастику почитать посоветуйте...с фурье человек далеко уйдет...
|
|
|
|
|
Oct 19 2008, 01:34
|
Участник

Группа: Участник
Сообщений: 36
Регистрация: 31-01-06
Пользователь №: 13 785

|
Ой, ну автор насмешил! На PC эта хрень толком не работает, а он на АВР-ке собрался... Цитата(defunct @ Oct 19 2008, 08:11)  Ну а как иначе? С фурье все достаточно просто. Прощелкали спектр, сравнили со спектром эталона, получили 20 или более % подобия - распознали. Речь - это не DTMF, таким наскоком ее не взять. Люди разные, голоса разные, а говорят одно и то же - фурье ничем не поможет. Да даже один и тот же голос, в разном настроении и с разной громкостью даст разные спектры. Читайте про цифровую обработку речи. Мне, когда ее почитал, чуть не вывихнув мозги с кепстрами, стало понятно - ловить тут нечего.
|
|
|
|
|
Oct 19 2008, 04:46
|

кекс
     
Группа: Свой
Сообщений: 3 825
Регистрация: 17-12-05
Из: Киев
Пользователь №: 12 326

|
Цитата(ATLab @ Oct 19 2008, 04:34)  Речь - это не DTMF, таким наскоком ее не взять. Люди разные, голоса разные, а говорят одно и то же - фурье ничем не поможет. Слова состоят из звуков, звуки имеют свой спектр (спектр может быть сдвинут, но картина в общем одинаковая, анализировать надо производную спектра). У меня есть рабочая программа на базе FFT и анализа спектра, которая реально распознает речь! Она опровергает ваше опасение насчет "не поможет" - поможет еще как. Анализ спектра позволяет достаточно точно выделить звуки, основная сложность в этой задаче это определить границы между звуками, но и тут если не рассматривать все случаи жизни, а принять фиксированный интервал выборки в 10ms и по ним шлепать, то тоже проблем нет. Цитата Ой, ну автор насмешил! На PC эта хрень толком не работает, а он на АВР-ке собрался... А как же голосовой набор в телефонах? Ведь это распознавание речи и старенький Samsung N100 если не ошибаюсь, имея на борту скромный LPC ARM успешно справлялся этой задачкой. Эрики старые тоже. Ларчик на самом деле просто открывается, просто видать PC программеры - тупые (или ставят перед собой очень необъятную задачу - не только распознать но и понять  ). PS: Кстати для DTMF детекта FFT избыточно. Цитата(DRUID3 @ Oct 19 2008, 02:35)  И еще, а что Вы вкладываете в слова 20% подобия? Это очень мало, между прочим... Это зависит от метода сравнения. В моем случае 20% - это много. Грубо не вдаваясь в детали - представим, что спектр входного сигнала отмасштабирован так, что интеграл разности спекторв входного сигнала и эталонного на отрезке от 0 до Fd будет минимальным. Полное совпадение - когда интеграл равен 0. Полное несовпадение - равен X. 20% подобия соотв. - 0.8*X.
|
|
|
|
|
Oct 19 2008, 10:20
|
Группа: Участник
Сообщений: 6
Регистрация: 16-12-05
Пользователь №: 12 291

|
Цитата(Огурцов @ Oct 19 2008, 04:39)  М.б. и есть чего, но уж только не на AVR. Хотя если в оффлайн... А чем Вам AVR не подходит? Фигасе 20Мипс уже "не производительность"  , Куда катится этот мир? Для сомневающихся- готовый проект, читайте тут например: http://instruct1.cit.cornell.edu/courses/e...L362/index.html
|
|
|
|
|
Oct 19 2008, 11:36
|
Группа: Участник
Сообщений: 6
Регистрация: 16-12-05
Пользователь №: 12 291

|
Цитата(Flasher @ Oct 19 2008, 13:54)  ... На авр не добиться серъезного уровня. Ну на вкус и цвет... Кому и СТАРТ СТОП достаточно а кому нужно скоротать вечер в философской беседе с контроллером на тему "bit | ~bit"  PS Сорри за оффтоп
Сообщение отредактировал NetTracer - Oct 19 2008, 11:36
|
|
|
|
|
Oct 19 2008, 13:27
|
Гуру
     
Группа: Участник
Сообщений: 3 928
Регистрация: 28-03-07
Из: РФ
Пользователь №: 26 588

|
Цитата(NetTracer @ Oct 19 2008, 10:20)  Фигасе 20Мипс уже "не производительность" Это восьмибитные мипсы. Т.е. когда нормальный DSP _за те же деньги_ будет делать 2000 бабочек в uS, AVR едва ли справится с одной. Кроме того нужно где-то хранить фонемы и слова, что для AVR тоже малореально, в условиях реалтайм. Хотя я с Вами сразу же соглашусь, при условии, что покажете работающий пример хотя бы на 20 элементарных команд. Надеюсь, на распознавание всего языка (хотя бы 20 тысяч слов) на AVR Вы не претендуете. Цитата(defunct @ Oct 19 2008, 04:46)  А как же голосовой набор в телефонах? Баловался я когда-то с Siemens S45. Не знаю, какой там проц и какой был применен алгоритм, но распознование команд было отвратительно - нужно было сделать десяток попыток, чтобы произнести команду так же, как она была записана. Такой футбол нам не нужен(с)
|
|
|
|
|
Oct 19 2008, 16:27
|

Йа моск ;)
     
Группа: Модераторы
Сообщений: 4 345
Регистрация: 7-07-05
Из: Kharkiv-city
Пользователь №: 6 610

|
Цитата Это восьмибитные мипсы. Ага... Чернила для восьмого класса. Мы тут выясняли соотношение AVR'овских и ARM'овских мипсов. Примерно в два раза. Если сравнивать с BF - то в 4 раза. Цитата Т.е. когда нормальный DSP _за те же деньги_ Ну-ка, огласите нормальный DSP за 1-2 бакса? Цитата Баловался я когда-то с Siemens S45 Не знаю, не знаю. На Осле (SL45) вполне вменяемо работало голосовое управление. Проц там, кстати, C166. Про алгоритм - не скажу, не разбирался. При желании - могу посмотреть, благо idb-файл не потерялся, место, где смотреть, примерно знаю... Цитата а что скажете по этому поводу Прикольно  Интересно, как оно в живую, а не в описании?
--------------------
"Практика выше (теоретического) познания, ибо она имеет не только достоинство всеобщности, но и непосредственной действительности." - В.И. Ленин
|
|
|
|
3 чел. читают эту тему (гостей: 3, скрытых пользователей: 0)
Пользователей: 0
|
|
|