Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Распознавание речи
Форум разработчиков электроники ELECTRONIX.ru > Микроконтроллеры (MCs) > AVR
VAHOO
Я знаю алгоритм для распознавание речи. Слова через микрофон проходит в фильтр, который собран на операционниках, типичные частоты для человеческого голоса находятся на интервале 100 гц - 2 000 гц, по этому используется Фильтр Высокого прохода, полосовой Фильтр и фильтр низкого прохода (аналоговый), после этого сигнал входит в микроконтроллер Т.е. на АЦП (скажем ATmega32) , здесь уже используются цифровые фильтры (Butterworth, Chebishev1,Chebishev2) , уже 'обработанный сигнал' который включает в себе цифры, сравнивается уже заранее хранивший в памяти отпечатков пальца словаря, метод сравнении можно использовать эвклидовые расстояния (сравнение как две векторы) или корреляционный метод, а словарь отпечатки палцов можно получить через MATLAB использовать Быстрое Преобразование Фурье, этот метод работает только для одного человека, То есть метод работает только для человека который говорил слово, если другой человек скажет тот же слово алгоритм не будет распознать. Мне надо такой алгоритм чтобы был универсальным, то если я в памяти микроконтроллера занес отпечатки пальца слова система работал для всех, то есть если все люди говорили тот же слова, система распознавания работал.
И скажите пожалуйста, чем отличаются одно и тот же слово сказанные разными людьми?
Буду рад лубой информации.
Borshef
Цитата(VAHOO @ Aug 29 2007, 09:21) *
скажите пожалуйста, чем отличаются одно и тот же слово сказанные разными людьми?
Буду рад лубой информации.


Слово отличается частотными характеристиками, например один человек произнесёт букву "А" это будет соответствовать частоте 700 Гц, человек с более писклявым голосом скажет тоже - получим частоту 1000 Гц.
Maik-vs
Дорогой аффтар! Вот Вы интересуетесь алгоритмом распознавания речи. А как распознать Ваш текст? Кто такой фильтр высокого прохода? Знаете ли Вы, что Chebishev - это фамилия русского учёного Чебышева? Каким боком тут пальцы и их отпечатки? И перлы грамматики типа "если другой человек скажет тот же слово алгоритм не будет распознать." Вы хотите получить готовое по теме, которой наука занимается с 30-х годов (представьте себе! И до Вас кто-то что-то делал!) , и не удосужились хотя бы согласовать предложения. Не охота отвечать по сути. Читайте книги. Ваша задача была решена в сталинских шарашках.
pokos
Цитата(Maik-vs @ Aug 29 2007, 11:03) *
А как распознать Ваш текст?

Не стоит так строго. Думается, автор не русскоязычен просто.
Kuzmi4
2 Maik-vs - вместо того чтоб раскидываться руками, дали бы конкретный отвает ПО ТЕМЕ...

А вообсче когда то сталкивался с похожим - но далее интереса не пошло - тобто чисто ознакомления с литературой - там основная проблема как раз что описует Borshef - частотные характеристики голоса разных людей разные...Хотя если есть сходу готовое решение (как описывает уважаемый Maik-vs) - то было бы неплохо увидеть.. Дома покопаюсь у себя - если найду - выложу что есть..

А вообсче то авр-ки не для таких задач - тут ТМС надо использовать или что-то схожее...
muravei
Цитата(Maik-vs @ Aug 29 2007, 11:03) *
И перлы грамматики типа "если другой человек скажет тот же слово алгоритм не будет распознать." Вы хотите получить готовое по теме, которой наука занимается с 30-х годов (представьте себе! И до Вас кто-то что-то делал!) , и не удосужились хотя бы согласовать предложения.

Ну чего Вы напали на человека, "перлы", я думаю, не его , а компового переводчика.
2VAHOO
А задача разпознования речи не для АВР, с фильтрами , или без.
Почитайте
тут . может чуть прояснится.

Цитата(Kuzmi4 @ Aug 29 2007, 11:25) *
частотные характеристики голоса разных людей разные...

Это называется частота ОСНОВНОГО ТОНА
Borshef
Цитата(muravei @ Aug 29 2007, 11:29) *
Это называется частота ОСНОВНОГО ТОНА

Спасибо smile.gif
Maik-vs
Цитата(Kuzmi4 @ Aug 29 2007, 11:25) *
2 Maik-vs - вместо того чтоб раскидываться руками, дали бы конкретный отвает ПО ТЕМЕ...

А вообсче когда то сталкивался с похожим - но далее интереса не пошло - тобто чисто ознакомления с литературой - там основная проблема как раз что описует Borshef - частотные характеристики голоса разных людей разные...Хотя если есть сходу готовое решение (как описывает уважаемый Maik-vs) - то было бы неплохо увидеть.. Дома покопаюсь у себя - если найду - выложу что есть..

А вообсче то авр-ки не для таких задач - тут ТМС надо использовать или что-то схожее...

Да, не сдержался. Полнолуние, наверное. smile.gif Поймите, надоело читать типа "Хачю сделать робата шоб хадил на нагах и были глаза шоб видить. У каго есть прошива, где скачевать?" Как будто науки нету, один начинающий ембеддер в пещере нарисовался.
Готового решения, сходу - нет! Вот я сейчас клаву топчу, а не диктую, а Вы? Примерное решение - кластеризация изменения частоты и амплидуты в пространстве времени слова. До этого - задача выделения отдельных слов из слитной речи. Задача выделения персонального словаря. Контекстная интерпретация команды. Ну и по ходу набежит...
Kuzmi4
2 Maik-vs - smile.gif laughing.gif

На счёт ХАЧЮ - согласен....Литература есть - мона почитать - на счёт распознавания речи - тут muravei дал очень полезную ссылку, так что думаю товарищу есть куда копать...По крайней мере на ближайшие пару недель...Хотя я в принципе встречал - на АВР товарищи делали распознавалку для 3 слов - 100% гарантия (ну приблизительно 100 - кол-во экспериментов то ограничено..). Вот на выходных покопаюсь - выложу товарищу - идея там простая как собсно и реализация. НУ а для полноценного распознавания - я думаю товарищу не в форуме АВР надо было задавать такие вопросы - в сторону армов копать надо...
SasaVitebsk
Когда-то, как и все наверное, очень интересовался данной темой. Читал книжку с картинками (осциллограммами и спектрограммами). smile.gif По сути - исследование в данной области.

Так вот одним спектральным анализом не обойдёшься. (Хотя я бы и за это не взялся бы) Одна и таже буква, произнесённая одним и тем же человеком, но стоящая в разном окружении имеет совершенно разный спектр частот. Поэтому вводятся и распознаются фонемы. Или даже целиком слова. Далее, что очевидно, выполняется работа сопоставимая с переводчиками которые вы ругали. То есть чтобы распознать текст его надо ПОНЯТЬ. Вот в этом то и возникает загвоздка в настоящий момент

По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокд рсапожолены бкувы в солве.
Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано
ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы не чиатем кдаужю бкуву по отдльенотси, а все солво цликеом
VAHOO
Я армянин, у меня образование армянское, по этому извиняюсь smile.gif
sorry!
nick-l
Так это уже вопрос искуственного интиллекта, как и распознавание голосовых комманд на естественном языке, а не на слелизированном языке из определенного количества слов четко описанных в инструкции по эксплуатации (предстате инструкцию к прибору из 500 слов, ее еще надо выучить как новый иностранный язык)
SasaVitebsk
Цитата(VAHOO @ Aug 29 2007, 12:48) *
Я армянин, у меня образование армянское, по этому извиняюсь smile.gif
sorry!

Да не обращайте внимание на такие выпады. У вас неплохой русский, учитывая что Вы им не являетесь. Мне, к примеру, наоборот приятно что интерес к МК так сближает разных людей и разные национальности. Здесь, в отличие от телесистем, совершенно нет межнациональной грызни. За это большая благодарность модераторам. Я очень надеюсь что и в дальнейшем её не будет.
Вам же всё таки рекомендую взяться пока за более простую тему.
VAHOO
Спасибо SasaVitebsk smile.gif
мне надо чтобы ATmega32 распознал 3 армянских слов и все.
У меня сейчас в руках есть PIC контроллер (кварц 10мгц),
он четко распознает русские 3 слова и очень четко работает,
конечно ставлен Lock Bits -и, мне не надо делать интеллектуальный
апарат. Спасибо!
Kuzmi4
2 VAHOO - на счёт армянских не знаю - но на счёт английских - в том простеньком примере чт оя смотрел - реализовано именно оно - при чём по моему как раз на 32-й меге...В обсчем как доберусь к инфе - так выложу....
SasaVitebsk
Так это несколько другая задача. smile.gif
Надо эти три слова записать во флэш с помощью той же схемы что и читать будите и, далее, сравниванием с оценкой ошибок.
VAHOO
Цитата(Kuzmi4 @ Aug 29 2007, 17:30) *
2 VAHOO - на счёт армянских не знаю - но на счёт английских - в том простеньком примере чт оя смотрел - реализовано именно оно - при чём по моему как раз на 32-й меге...В обсчем как доберусь к инфе - так выложу....


если вы имеете виду это
http://instruct1.cit.cornell.edu/courses/e...ndex.html#intro

то я это уже собрал, нормально работает, мне надо чтобы распознал
голоса разных людей, а если вы имеете виду другое тагда буду очень
признателен smile.gif
muravei
Цитата(VAHOO @ Aug 29 2007, 19:32) *
мне надо чтобы распознал
голоса разных людей

Если Вы это сделаете на АВР , можете смело требовать Нобелевскую премию. smile.gif
INT1
Нужно набрать в поиске << системы распознавания образов >> это как бы общенаучная проблема, а как подвид << системы распознавания речи >> Фурье тут как бы и при чем , но это далеко еще не все. Из популярных компьютерных пакетов " Горыныч " - русскоязычный , и " Dragon" - англо. , но, не обольщайтесь ;-)
bbg
Цитата(VAHOO @ Aug 29 2007, 18:32) *
если вы имеете виду это
http://instruct1.cit.cornell.edu/courses/e...ndex.html#intro

то я это уже собрал, нормально работает, мне надо чтобы распознал
голоса разных людей, а если вы имеете виду другое тагда буду очень
признателен smile.gif


не верю, что "это", бугага, "нормально работает"..

"это" вооще не работает, и никогда не будет. поищите в инете индусский спичрикогнайзер, что-ли, там dtw на и пр. фишки на 8085, тиор-атически мона перевести на мелкие атмельки, но это тоже будет рекогнайзер известных дикторов.. хотите разных - сделайте кепструм, и немного будет вам..
VAHOO
Цитата(bbg @ Aug 29 2007, 22:09) *
не верю, что "это", бугага, "нормально работает"..

"это" вооще не работает, и никогда не будет. поищите в инете индусский спичрикогнайзер, что-ли, там dtw на и пр. фишки на 8085, тиор-атически мона перевести на мелкие атмельки, но это тоже будет рекогнайзер известных дикторов.. хотите разных - сделайте кепструм, и немного будет вам..


в инете искал не нашел, если у вас ест линк пожалуйста даите!
bbg
Цитата(VAHOO @ Aug 30 2007, 13:03) *
в инете искал не нашел, если у вас ест линк пожалуйста даите!


лекко:

http://www.stanford.edu/~asaxena/resources...hrecognizer.pdf

но имейте ввиду - это тоже не совсем серьезная поделка, хотя и на четыре порядка выше корнуэлловской халявы..
Coolrunner
Тут есть немного теории...
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Invision Power Board © 2001-2025 Invision Power Services, Inc.