Цитата(ATLab @ Oct 19 2008, 04:34)

Речь - это не DTMF, таким наскоком ее не взять. Люди разные, голоса разные, а говорят одно и то же - фурье ничем не поможет.
Слова состоят из звуков, звуки имеют свой спектр (спектр может быть сдвинут, но картина в общем одинаковая, анализировать надо производную спектра).
У меня есть рабочая программа на базе FFT и анализа спектра, которая реально распознает речь! Она опровергает ваше опасение насчет "не поможет" - поможет еще как. Анализ спектра позволяет достаточно точно выделить звуки, основная сложность в этой задаче это определить границы между звуками, но и тут если не рассматривать все случаи жизни, а принять фиксированный интервал выборки в 10ms и по ним шлепать, то тоже проблем нет.
Цитата
Ой, ну автор насмешил! На PC эта хрень толком не работает, а он на АВР-ке собрался...
А как же голосовой набор в телефонах? Ведь это распознавание речи и старенький Samsung N100 если не ошибаюсь, имея на борту скромный LPC ARM успешно справлялся этой задачкой. Эрики старые тоже. Ларчик на самом деле просто открывается, просто видать PC программеры - тупые (или ставят перед собой очень необъятную задачу - не только распознать но и понять

).
PS: Кстати для DTMF детекта FFT избыточно.
Цитата(DRUID3 @ Oct 19 2008, 02:35)

И еще, а что Вы вкладываете в слова 20% подобия? Это очень мало, между прочим...
Это зависит от метода сравнения. В моем случае 20% - это много.
Грубо не вдаваясь в детали - представим, что спектр входного сигнала отмасштабирован так, что интеграл разности спекторв входного сигнала и эталонного на отрезке от 0 до Fd будет минимальным. Полное совпадение - когда интеграл равен 0. Полное несовпадение - равен X.
20% подобия соотв. - 0.8*X.