Форум разработчиков электроники ELECTRONIX.ru

Помощь - Поиск - Пользователи - Календарь

Полная версия этой страницы: Обнаружение речи

Форум разработчиков электроники ELECTRONIX.ru > Cистемный уровень проектирования > Математика и Физика

mikalaha

Jul 9 2007, 05:42

Есть задача по обнаружению речи. Точнее по отделению речи от технических сигналов (тонов, полосовых сигналов) в полосе стандартного телефонного канала (0.3 - 3.4 кГц). Пробовал делать через БПФ - неудачно, так как после усреднения спектра на некотором участке голос становился очень похож на ряд технических сигналов - ложное срабатывание.
Потом переместился во временную область - здесь признаком речи выступала производная дисперсии сигнала ( скорость изменения сигнала) на коротких участках (до 0.5 сек). Здесь результаты получились более лучшие, но появилось много пропусков цели - на участках, где человек говорил немного (отдельные фразы). Есть ли у кого-нибудь опыт работы в данной теме?. Буду очень признателен за ссылки, идеи и т.д.

Mc_off

Jul 10 2007, 05:12

Может подойти с другого конца?

Определяйте не голос, а "не голос". Т.е. определитесь с тем какие технические сигналы могут прозодить в вашей линии и детектируйте их.

Думаю это будет проще, т.к. "технические сигналы" более детерминированные.

Правда, если будет очень широкополосный сигнал, то его сложно отличить от шума...
Кроме того, помехи - эо тоже сигналы...

А вообще даже немного завидую. Интересная задача.

mikalaha

Jul 10 2007, 07:03

Цитата(Mc_off @ Jul 10 2007, 09:12)

Определять только технические сигналы - это действительно выход, но ... есть один нюанс:
некоторые сигналы (а именно ряд узких по спектру и коротких по времени ЧМ передач и ФМ-передач) детектируются на голосе ( по спектральным признакам). Кроме того некоторые даже демодулируются и в демодулированных данных иногда СХОДИТСЯ CRC! (пару раз было). Кроме того на речи проскакивают иногда такие чудеса, что вся логика дальнейшей обработки идет коту под хвост. Либо надо усложнять и без того накрученную логику обработки (какие сигналы могут в данный момент появиться , а какие не могут) - что не особенно правильно.
Поэтому был выбран путь обнаружения речи. Результаты такие, что когда кто-то говорит долго - это определяется, а если отдельные фразы - то нет.
Видимо, необходимо делать согласованный спектрально-временной анализ - но пока не знаю как.
Поэтому и затронул эту действительно интересную тему.
Спасибо за поддержку.

muravei

Jul 10 2007, 07:24

Посмотрите
здесь
А я бы подумал над таким параметром речи как основной тон.

mikalaha

Jul 10 2007, 07:46

Цитата(muravei @ Jul 10 2007, 11:24)

Посмотрите
здесь
А я бы подумал над таким параметром речи как основной тон.

Спасибо за ссылку. Действительно очень много материала. Дай Бог разобраться.

Oldring

Jul 10 2007, 08:43

Цитата(mikalaha @ Jul 10 2007, 11:03)

Кроме того некоторые даже демодулируются и в демодулированных данных иногда СХОДИТСЯ CRC! (пару раз было).

Значит, слишком котороткий CRC.

mikalaha

Jul 10 2007, 09:09

Цитата(Oldring @ Jul 10 2007, 12:43)

Значит, слишком котороткий CRC.

16 бит. Все по чесному. Длина пакета вместе с CRC - 5 байт (один из управляющих пакетов T.30 ITU-T).
Ну... фишка легла. Тут конечно следует отметить, что декодирование полей этого пакета привело к бессмысленным параметрам установки соединения, но CRC сошлось... Чудеса.

bagira

Jul 13 2007, 14:48

Здесь что-то есть подобное:

http://websound.ru/articles/theory/speech.htm
http://www.istrasoft.ru/speech.html

Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.