Распознавание сигнала КПВ - Форум разработчиков электроники ELECTRONIX.ru

Распознавание сигнала КПВ, распознавание КПВ в присутствии речи/шума

AVL Просмотр профиля	Jun 14 2007, 14:51 Сообщение #1
Местный Группа: Свой Сообщений: 392 Регистрация: 29-05-07 Из: Москва Пользователь №: 28 020	Есть задача, которую не удается решить полностью. Необходимо распознавать сигнал контроля посылки вызова (КПВ), формируемого станцией абоненту в процессе установления соединения. Стандартов КПВ существует бесчетное множество. Но проблема не в этом. Сейчас ограничимся только одним российским стандартом: КПВ представляет собой тональный сигнал частотой 425±3 Гц, длительность посылки 1 с, длительность паузы 4 с. Посылка КПВ продолжается пока абонент на дальнем конце не поднимет трубку. Так вот, трудность распознавания заключается в том, что одновременно с КПВ в канале связи может одновременно звучать речь и присутствовать различные звуковые шумы, свойственные офисным помещениям. Соотношение амплитуды КПВ и речи/шума в канале может быть различным. Например КПВ может быть в 2 раза громче речи, либо речь в 2 раза громче КПВ, либо одинаковые по громкости. Короче соотношения любые в пределах разумного. В таких пределах, чтобы "на слух" было не трудно распознать, что идет посылка КПВ на фоне речи/музыки. Самые жесткие ситуации возникают, когда идет посылка КПВ и при этом речь произносится расстягивая гласные звуки и одна из формант речевого сигнала оказывается с частотой близкой 425 Гц, а ширина форманты покрывает полностью 425 Гц. Так вот, задачу не удается решить полностью. В ситуациях когда в канале присутствует только КПВ в условиях умеренных шумов, распознавание выполняется без проблем ( 1-й способ: полосовой фильтр с центр. част. 425 Гц, режекторный фильтр с центр. част. 425 Гц, проверка на превышение порогов уровней на выходах фильтров; 2-й способ: оценка кросскорреляции каждой пары смежных фреймов длительностью 25 мс). Если же в канале одновременное присутствие КПВ и речи/шума, то в эти моменты не удается распознать присутствие КПВ. Если посмотреть спектрограмму, то сигнал КПВ "замазывается" попадающей на КПВ сильной формантой речи. Сейчас пока стоит задача хоть как угодно решить задачу. Пусть для этого потребуется сколь угодно мощный вычислитель. Вопрос пока стоит принципиально, как можно решить такую задачу, обеспечив максимальную точность распознавания. Может есть у кого мысли? P.S. Человек может различить КПВ "на слух" в таких сложных условиях, то есть в мозге есть некоторые процессы, позволяющие человеку это сделать. Сообщение отредактировал AVL - Jun 14 2007, 14:53

Ответов

el34 Просмотр профиля	Jun 14 2007, 20:27 Сообщение #2
инженер Группа: Свой Сообщений: 717 Регистрация: 4-03-05 Пользователь №: 3 064	AVL>Вы имеете ввиду гармоники сигнала КПВ? если КПВ, то у него их нет, КПВ в идеальном случае имеет синусоидальную форму. Или я не правильно понял? да, гармоники сигнала КПВ будут осутвсвовать только в идеальном случае, а в случае реального канала будут нелинейные искажения и сл-но будут и гармоники..... в речевом сигнале гармоники похоже будут с большими осительными уровнями... AVL>Да, но тогда будет на спектрограмме только эта "палка", допустим с центром 425 Гц, и как сделать вывод есть внутри этой "палки" искомый КПВ или его там нет? я имел ввиду, что если делатся спектральный анализ сигнала в области рядом с ожидаемым на 425 Гц, то в случае речевой форманты на этой частоте можно будет увидеть ее частотную и амплитудную нестабильность и следовательно размытость спектральной палки.... можно объединив эти два критерия улучшить точность ... имхо -------------------- ........поужинали вяленой рыбой, кот лежал рядом, молчали.......

AVL Просмотр профиля	Jun 15 2007, 20:37 Сообщение #3
Местный Группа: Свой Сообщений: 392 Регистрация: 29-05-07 Из: Москва Пользователь №: 28 020	Цитата(el34 @ Jun 15 2007, 00:27) да, гармоники сигнала КПВ будут осутвсвовать только в идеальном случае, а в случае реального канала будут нелинейные искажения и сл-но будут и гармоники..... в речевом сигнале гармоники похоже будут с большими осительными уровнями... проводил некоторый визуальный анализ спектрограммы реальных сигналов (канал не самого лучшего качества), гармоник КПВ не обнаружил. Цитата(el34 @ Jun 15 2007, 00:27) я имел ввиду, что если делатся спектральный анализ сигнала в области рядом с ожидаемым на 425 Гц, то в случае речевой форманты на этой частоте можно будет увидеть ее частотную и амплитудную нестабильность и следовательно размытость спектральной палки.... Вот на частотной нестабильности речевой форманты есть смысл сыграть. Это должно помочь отсеить ложное распознавание в случае, когда форманта речи в окрестности 425 Гц вдруг окажется длительностью близкой 1 с, то есть в этом случае это не есть КПВ. Цитата(mikalaha @ Jun 15 2007, 15:41) ...Таким образом, если среднее расстояние между пересечениями нуля на определенной длине (75% от длительности тона) совпадает с заданным диапазоном, то тон найден. Попробую Ваш способ испытать при неблагоприятных условиях. Позже отпишусь. Пока некоторое время буду отсутствовать. Цитата(Stanislav @ Jun 15 2007, 17:15) Отличить тональный сигнал от форманты удавалось, пользуясь кусочной стационарностью тонального сигнала и нестационарностью форманты. В простейшем случае, система состояла из 2-х фильтров - широкополосного (герц 100 для сигнала 2100 Гц, по-моему) и узкополосного (около 10 герц, в пределах допуска на частоту). Далее шли детекторы уровня и логика принятия решения, в зависимости от уровней сигнала на выходах обоих фильтров. ...Но идея в том, что форманта почти обязательно "въедет" в узкополосный ПФ или "выедет" из него за время измерения, оставаясь в полосе пропускания широкополосного ПФ, и это легко можно отследить. Если сигналом будет "настоящий" тон, то он появится и пропадёт в фильтрах одновременно (с учётом задержек фильтров, ессно). Кроме того, форманта нестабильна по уровню. Измеряя относительное изменение мгновенной мощности за измеряемый период, можно получить дополнительный критерий "отсечения" форманты. Таким образом, измеряя мощности сигналов на выходах ПФ и сравнивая их между собой, форманту можно отделить от кусочно-стационарного тонального сигнала с весьма высокой степенью вероятности. Вот это как раз я и хотел. Все в голове крутилось, разные варианты приходили в голову. Ваш вариант очень интересный и предполагаю, что должен хорошо работать. Его тоже испытаю. Всем спасибо за идеи. Через некоторое время опишу, полученные результаты. Цитата(Slava17 @ Jun 15 2007, 19:40) Когда-то изучал спектры тоновых сигналов, и в числе прочего выяснил, что фаза спектра такого сигнала при проходе через частоту гармоники меняется на 180град.(пи). Т.е. если по сигналу делаете БПФ, то фазы 2 соседних с 425 Гц частотных отсчетов будут повернуты друг относительно друга приблизительно на 180град. При этом стабильная палка спектра будет наблюдаться только при точном попадании частотного отсчета на частоту 425Гц. В противном случае будет 2 меняющихся по времени отсчета на частотах, соседних с 425Гц. извините, не понял Вашу мысль. если не затруднит, напишите подробнее и возможность применения свойств, которые Вы указали. Сообщение отредактировал AVL - Jun 15 2007, 20:32

nsemenoff Просмотр профиля	Jun 18 2007, 14:25 Сообщение #4
Частый гость Группа: Свой Сообщений: 88 Регистрация: 12-02-07 Из: СПб Пользователь №: 25 280	Есть много разных способов оценки спектра, и линейный фильтр с БПФ - не единственные для этого способы. Для вокодеров очень хорошо подходят линейные спектральные пары, которые, как считается, содержат ту же информацию, что получает мозг при распознавании речи. Расчитываются спектральные пары через модель линейного предсказателя (достаточно 10 отсчетов для описания и больше для описания музыки). Предлагаю построить спектрограмму такого преобразования и на ней разделять тон 425Гц и голос...

Stanislav Просмотр профиля	Jun 18 2007, 15:44 Сообщение #5
Гуру Группа: Свой Сообщений: 4 363 Регистрация: 13-05-05 Из: Москва Пользователь №: 4 987	Цитата(Nick Semenoff @ Jun 18 2007, 18:25) Есть много разных способов оценки спектра, и линейный фильтр с БПФ - не единственные для этого способы. Для вокодеров очень хорошо подходят линейные спектральные пары, которые, как считается, содержат ту же информацию, что получает мозг при распознавании речи. Расчитываются спектральные пары через модель линейного предсказателя (достаточно 10 отсчетов для описания и больше для описания музыки). Предлагаю построить спектрограмму такого преобразования и на ней разделять тон 425Гц и голос... Простите, а каким образом Вы предлагаете использовать LSP для различения форманты и тона? -------------------- Самонадеянность слепа. Сомнения - спутник разума. (с)

Сообщений в этой теме

AVL Распознавание сигнала КПВ Jun 14 2007, 14:51

el34 может посмотреть еще и на гармоники 425 Гц(чет и н... Jun 14 2007, 15:04

AVL Цитата(el34 @ Jun 14 2007, 19:04) может п... Jun 14 2007, 19:47

asdf Цитата(AVL @ Jun 14 2007, 23:47) Вы имеет... Jun 14 2007, 20:12

SM Если ограничиться только 425, то все просто. Фильт... Jun 14 2007, 20:14

AVL Цитата(SM @ Jun 15 2007, 00:14) ЗЫ Но это... Jun 15 2007, 06:29

mikalaha Цитата(AVL @ Jun 15 2007, 10:29) да, быва... Jun 15 2007, 08:16

AVL Цитата(mikalaha @ Jun 15 2007, 12:16) Пот... Jun 15 2007, 09:18

mikalaha Цитата(AVL @ Jun 15 2007, 13:18) В смысле... Jun 15 2007, 11:41

el34 AVL>Вы имеете ввиду гармоники сигнала КПВ? если... Jun 14 2007, 20:27

AVL Цитата(el34 @ Jun 15 2007, 00:27) да, гар... Jun 15 2007, 20:37

Nick Semenoff Есть много разных способов оценки спектра, и линей... Jun 18 2007, 14:25

Stanislav Цитата(Nick Semenoff @ Jun 18 2007, 18:25... Jun 18 2007, 15:44

Stanislav Цитата(AVL @ Jun 14 2007, 18:51) Есть зад... Jun 15 2007, 13:15

Slava17 Когда-то изучал спектры тоновых сигналов, и в числ... Jun 15 2007, 15:40

el34 AVL>проводил некоторый визуальный анализ спектр... Jun 15 2007, 20:38

« Предыдущая тема · Математика и Физика · Следующая тема »

1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)

Пользователей: 0