Есть задача по обнаружению речи. Точнее по отделению речи от технических сигналов (тонов, полосовых сигналов) в полосе стандартного телефонного канала (0.3 - 3.4 кГц). Пробовал делать через БПФ - неудачно, так как после усреднения спектра на некотором участке голос становился очень похож на ряд технических сигналов - ложное срабатывание. Потом переместился во временную область - здесь признаком речи выступала производная дисперсии сигнала ( скорость изменения сигнала) на коротких участках (до 0.5 сек). Здесь результаты получились более лучшие, но появилось много пропусков цели - на участках, где человек говорил немного (отдельные фразы). Есть ли у кого-нибудь опыт работы в данной теме?. Буду очень признателен за ссылки, идеи и т.д.
|