реклама на сайте
подробности

 
 
3 страниц V   1 2 3 >  
Reply to this topicStart new topic
> Распознавание речи, помогите пожалуйста!
VAHOO
сообщение Aug 28 2007, 19:09
Сообщение #1


Частый гость
**

Группа: Участник
Сообщений: 163
Регистрация: 22-09-05
Пользователь №: 8 834



Я знаю алгоритм для распознавание речи. Слова через микрофон проходит в фильтр, который собран на операционниках, типичные частоты для человеческого голоса находятся на интервале 100 гц - 2 000 гц, по этому используется Фильтр Высокого прохода, полосовой Фильтр и фильтр низкого прохода (аналоговый), после этого сигнал входит в микроконтроллер Т.е. на АЦП (скажем ATmega32) , здесь уже используются цифровые фильтры (Butterworth, Chebishev1,Chebishev2) , уже 'обработанный сигнал' который включает в себе цифры, сравнивается уже заранее хранивший в памяти отпечатков пальца словаря, метод сравнении можно использовать эвклидовые расстояния (сравнение как две векторы) или корреляционный метод, а словарь отпечатки палцов можно получить через MATLAB использовать Быстрое Преобразование Фурье, этот метод работает только для одного человека, То есть метод работает только для человека который говорил слово, если другой человек скажет тот же слово алгоритм не будет распознать. Мне надо такой алгоритм чтобы был универсальным, то если я в памяти микроконтроллера занес отпечатки пальца слова система работал для всех, то есть если все люди говорили тот же слова, система распознавания работал.
И скажите пожалуйста, чем отличаются одно и тот же слово сказанные разными людьми?
Буду рад лубой информации. help.gif


--------------------
Прошивка это душа микроконтроллера!
Go to the top of the page
 
+Quote Post
VDG
сообщение Aug 28 2007, 20:16
Сообщение #2


Знающий
****

Группа: Участник
Сообщений: 845
Регистрация: 10-02-06
Пользователь №: 14 193



Цитата(VAHOO @ Aug 28 2007, 23:09) *
Слова через микрофон проходит в фильтр
...
сравнивается уже заранее хранивший в памяти отпечатков пальца

Плохая у вас травка. wacko.gif

Цитата
И скажите пожалуйста, чем отличаются одно и тот же слово сказанные разными людьми?

Туда http://forum.aicommunity.org/ идите, там объяснят (если захотим smile.gif ).

Сообщение отредактировал VDG - Aug 28 2007, 20:19


--------------------
Go to the top of the page
 
+Quote Post
VAHOO
сообщение Aug 29 2007, 06:17
Сообщение #3


Частый гость
**

Группа: Участник
Сообщений: 163
Регистрация: 22-09-05
Пользователь №: 8 834



Я армянин, у меня образование армянское, по этому извиняюсь smile.gif)
sorry!


--------------------
Прошивка это душа микроконтроллера!
Go to the top of the page
 
+Quote Post
Degun
сообщение Sep 6 2007, 06:01
Сообщение #4


Частый гость
**

Группа: Новичок
Сообщений: 84
Регистрация: 4-09-07
Из: Москва
Пользователь №: 30 277



Цитата(VAHOO @ Aug 28 2007, 23:09) *
....
И скажите пожалуйста, чем отличаются одно и тот же слово сказанные разными людьми?
Буду рад лубой информации. help.gif

Речь одного человека отличается от речи другого индивидуальными особенностями (тембром и прочее), которая кодируется формой сигнала речи. Понимаемость речи сохранится даже в том случае, если её клиппировать. Клиппирование сигнала - это процедура, отбрасывающая форму сигнала, но сохраняющая информацию о пересечении сигналом нулевого уровня. Т. е. алгоритм клиппирования состоит в следующем: если сигнал больше нуля, то его амплитуда приравнивается, допустим, +1, а если сигнал меньше нуля, то к -1. После операции клиппирования устраняются практически все индивидуальные особенности речи, но сохраняется информация о смысле произнесенного. Речь при этом имеет характерный металлический оттенок. Соответственно систему распознавания речи необходимо реализовывать на основе именно клиппированной речи.
И ещё: речь, как ни странно, состоит из так называемых фонем, т. е. элементарных звуков (не путать с буквами алфавита), которых в русском языке порядка 60. Соответственно из клиппированной речи вам нужно выделять именно фонемы, которые затем переводить в слова (если стоит именно такая задача).

Сообщение отредактировал Degun - Sep 6 2007, 06:03
Go to the top of the page
 
+Quote Post
muravei
сообщение Sep 6 2007, 06:20
Сообщение #5


Гуру
******

Группа: Свой
Сообщений: 2 538
Регистрация: 13-08-05
Пользователь №: 7 591



Цитата(Degun @ Sep 6 2007, 10:01) *
Понимаемость речи сохранится даже в том случае, если её клиппировать.

И даже если снять огибающую и промодулировать ей любой разумный сигнал.
Go to the top of the page
 
+Quote Post
bambr
сообщение Sep 6 2007, 06:43
Сообщение #6


Участник
*

Группа: Свой
Сообщений: 57
Регистрация: 3-08-06
Из: Раменское
Пользователь №: 19 297



А Атмега потянет для такой задачи? Или вы все таки основную обработку на ПК в Малабе делать будете?


--------------------
turizm62.ru
Go to the top of the page
 
+Quote Post
Degun
сообщение Sep 7 2007, 05:38
Сообщение #7


Частый гость
**

Группа: Новичок
Сообщений: 84
Регистрация: 4-09-07
Из: Москва
Пользователь №: 30 277



Цитата(muravei @ Sep 6 2007, 10:20) *
И даже если снять огибающую и промодулировать ей любой разумный сигнал.

Возможно. Возможно даже, что разборчивость сохранится, если сложить речь с любым разумным сигналом, и возможно даже, если умножить её на любой разумный сигнал. Необходимо стремиться к упрощению обработки, а не к её усложнению. Смысл применения операции клиппирования в том, чтобы привести речевой сигнал к виду наиболее похожему на сигнал с ШИМ, т. к. речь достаточно качественно можно представить именно в виде сигнала с ШИМ.
Go to the top of the page
 
+Quote Post
VDG
сообщение Sep 7 2007, 20:07
Сообщение #8


Знающий
****

Группа: Участник
Сообщений: 845
Регистрация: 10-02-06
Пользователь №: 14 193



Цитата(Degun @ Sep 6 2007, 10:01) *
Понимаемость речи сохранится даже в том случае, если её клиппировать.

Правильно - "распознаваемость". И обеспечивается она возможностями мозга.
Мозг то умеет работать даже с такой "бедной" информацией - восстанавливая входной поток, а для программиста задача ещё более усложняется.

Цитата
но сохраняется информация о смысле произнесенного.

Ну.... не смысл конечно smile.gif , придаваемый звуку субъектом, а корреляция с известным мозгу паттерном.

Рекомендую ещё раз сходить на сайт, который я указал выше. По крайней мере, не потратите время на велосипед.

Сообщение отредактировал VDG - Sep 7 2007, 20:13


--------------------
Go to the top of the page
 
+Quote Post
Doka
сообщение Sep 8 2007, 15:31
Сообщение #9


Electrical Engineer
******

Группа: СуперМодераторы
Сообщений: 2 163
Регистрация: 4-10-04
Пользователь №: 778



to VAHOO

посмотрите ссылки в этой теме


--------------------
Блог iDoka.ru
CV linkedin.com/in/iDoka
Sources github.com/iDoka


Never stop thinking...........................
Go to the top of the page
 
+Quote Post
Degun
сообщение Oct 8 2007, 09:57
Сообщение #10


Частый гость
**

Группа: Новичок
Сообщений: 84
Регистрация: 4-09-07
Из: Москва
Пользователь №: 30 277



Цитата(VDG @ Sep 8 2007, 00:07) *
Правильно - "распознаваемость". И обеспечивается она возможностями мозга.
Мозг то умеет работать даже с такой "бедной" информацией - восстанавливая входной поток, а для программиста задача ещё более усложняется.

Потребителем же информации является человек, поэтому можно рассчитывать на великолепные возможности его мозга.
Цитата(VDG @ Sep 8 2007, 00:07) *
Ну.... не смысл конечно smile.gif , придаваемый звуку субъектом, а корреляция с известным мозгу паттерном.

Но в итоге это же выливается в смысл речи
Go to the top of the page
 
+Quote Post
Grt
сообщение Oct 8 2007, 20:03
Сообщение #11


Участник
*

Группа: Участник
Сообщений: 62
Регистрация: 3-10-07
Из: Moscow
Пользователь №: 31 035



Цитата(Degun @ Oct 8 2007, 13:57) *
Потребителем же информации является человек, поэтому можно рассчитывать на великолепные возможности его мозга.

Но в итоге это же выливается в смысл речи


Если речь идет о распознавании речи, то на сегодняшний момент лучше скрытых марковских процессах (HMMs) не придумали, далее соответственно уже в сторону HMMs - алгоритмы витерби: прямой проход, обратный проход - декодирование слоф, фонем и т.д. Основные методы анализа: фурье, далее кепстральные коэффициенты и их производная.
Go to the top of the page
 
+Quote Post
Degun
сообщение Oct 9 2007, 06:21
Сообщение #12


Частый гость
**

Группа: Новичок
Сообщений: 84
Регистрация: 4-09-07
Из: Москва
Пользователь №: 30 277



Цитата(Grt @ Oct 9 2007, 00:03) *
Если речь идет о распознавании речи, то на сегодняшний момент лучше скрытых марковских процессах (HMMs) не придумали, далее соответственно уже в сторону HMMs - алгоритмы витерби: прямой проход, обратный проход - декодирование слоф, фонем и т.д. Основные методы анализа: фурье, далее кепстральные коэффициенты и их производная.

Не всякий процессор DSP потянет скрытые марковские процессы, а уж тем более алгоритм Витерби. Также можно столкнуться с ограничением по объёму памяти.
Go to the top of the page
 
+Quote Post
Grt
сообщение Oct 9 2007, 07:25
Сообщение #13


Участник
*

Группа: Участник
Сообщений: 62
Регистрация: 3-10-07
Из: Moscow
Пользователь №: 31 035



Цитата(Degun @ Oct 9 2007, 10:21) *
Не всякий процессор DSP потянет скрытые марковские процессы, а уж тем более алгоритм Витерби. Также можно столкнуться с ограничением по объёму памяти.


Это уже вторая задача, как оптимизировать так, чтобы все работало и в то же время можно было уместится в мипсах и в памяти.
Go to the top of the page
 
+Quote Post
Degun
сообщение Oct 10 2007, 12:59
Сообщение #14


Частый гость
**

Группа: Новичок
Сообщений: 84
Регистрация: 4-09-07
Из: Москва
Пользователь №: 30 277



Цитата(Grt @ Oct 9 2007, 11:25) *
Это уже вторая задача, как оптимизировать так, чтобы все работало и в то же время можно было уместится в мипсах и в памяти.

Это понятно, но зачастую когда имеешь дело с DSP-процессорами в реальном времени именно эти факторы выходят на первый план
Go to the top of the page
 
+Quote Post
Grt
сообщение Oct 10 2007, 13:06
Сообщение #15


Участник
*

Группа: Участник
Сообщений: 62
Регистрация: 3-10-07
Из: Moscow
Пользователь №: 31 035



Цитата(Degun @ Oct 10 2007, 16:59) *
Это понятно, но зачастую когда имеешь дело с DSP-процессорами в реальном времени именно эти факторы выходят на первый план


Значит надо чем-то жертвовать, например, длиною признакового вектора, длиной окна Витерби, методами dsp обработки речи и т.д.
Go to the top of the page
 
+Quote Post

3 страниц V   1 2 3 >
Reply to this topicStart new topic
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 


RSS Текстовая версия Сейчас: 17th June 2025 - 11:55
Рейтинг@Mail.ru


Страница сгенерированна за 0.01458 секунд с 7
ELECTRONIX ©2004-2016