Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Обнаружение речи
Форум разработчиков электроники ELECTRONIX.ru > Cистемный уровень проектирования > Математика и Физика
mikalaha
Есть задача по обнаружению речи. Точнее по отделению речи от технических сигналов (тонов, полосовых сигналов) в полосе стандартного телефонного канала (0.3 - 3.4 кГц). Пробовал делать через БПФ - неудачно, так как после усреднения спектра на некотором участке голос становился очень похож на ряд технических сигналов - ложное срабатывание.
Потом переместился во временную область - здесь признаком речи выступала производная дисперсии сигнала ( скорость изменения сигнала) на коротких участках (до 0.5 сек). Здесь результаты получились более лучшие, но появилось много пропусков цели - на участках, где человек говорил немного (отдельные фразы). Есть ли у кого-нибудь опыт работы в данной теме?. Буду очень признателен за ссылки, идеи и т.д.
Mc_off
Может подойти с другого конца?

Определяйте не голос, а "не голос". Т.е. определитесь с тем какие технические сигналы могут прозодить в вашей линии и детектируйте их.

Думаю это будет проще, т.к. "технические сигналы" более детерминированные.

Правда, если будет очень широкополосный сигнал, то его сложно отличить от шума...
Кроме того, помехи - эо тоже сигналы...

А вообще даже немного завидую. Интересная задача.
mikalaha
Цитата(Mc_off @ Jul 10 2007, 09:12) *
Может подойти с другого конца?

Определяйте не голос, а "не голос". Т.е. определитесь с тем какие технические сигналы могут прозодить в вашей линии и детектируйте их.

Думаю это будет проще, т.к. "технические сигналы" более детерминированные.

Правда, если будет очень широкополосный сигнал, то его сложно отличить от шума...
Кроме того, помехи - эо тоже сигналы...

А вообще даже немного завидую. Интересная задача.


Определять только технические сигналы - это действительно выход, но ... есть один нюанс:
некоторые сигналы (а именно ряд узких по спектру и коротких по времени ЧМ передач и ФМ-передач) детектируются на голосе ( по спектральным признакам). Кроме того некоторые даже демодулируются и в демодулированных данных иногда СХОДИТСЯ CRC! (пару раз было). Кроме того на речи проскакивают иногда такие чудеса, что вся логика дальнейшей обработки идет коту под хвост. Либо надо усложнять и без того накрученную логику обработки (какие сигналы могут в данный момент появиться , а какие не могут) - что не особенно правильно.
Поэтому был выбран путь обнаружения речи. Результаты такие, что когда кто-то говорит долго - это определяется, а если отдельные фразы - то нет.
Видимо, необходимо делать согласованный спектрально-временной анализ - но пока не знаю как.
Поэтому и затронул эту действительно интересную тему.
Спасибо за поддержку.
muravei
Посмотрите
здесь
А я бы подумал над таким параметром речи как основной тон.
mikalaha
Цитата(muravei @ Jul 10 2007, 11:24) *
Посмотрите
здесь
А я бы подумал над таким параметром речи как основной тон.

Спасибо за ссылку. Действительно очень много материала. Дай Бог разобраться.
Oldring
Цитата(mikalaha @ Jul 10 2007, 11:03) *
Кроме того некоторые даже демодулируются и в демодулированных данных иногда СХОДИТСЯ CRC! (пару раз было).


Значит, слишком котороткий CRC.
mikalaha
Цитата(Oldring @ Jul 10 2007, 12:43) *
Значит, слишком котороткий CRC.

16 бит. Все по чесному. Длина пакета вместе с CRC - 5 байт (один из управляющих пакетов T.30 ITU-T).
Ну... фишка легла. Тут конечно следует отметить, что декодирование полей этого пакета привело к бессмысленным параметрам установки соединения, но CRC сошлось... Чудеса.
bagira
Здесь что-то есть подобное:

http://websound.ru/articles/theory/speech.htm
http://www.istrasoft.ru/speech.html
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Invision Power Board © 2001-2025 Invision Power Services, Inc.