Речевой кодек для задачи, поставленной GeGel - Форум разработчиков электроники ELECTRONIX.ru

реклама на сайте
подробности

Wiki

Photo

Forum

Reviews

Help (!)

Форум разработчиков электроники ELECTRONIX.ru > Цифровая обработка сигналов - ЦОС (DSP) > Алгоритмы ЦОС (DSP)

8 страниц

< 1 2 3 4 5 > »

Речевой кодек для задачи, поставленной GeGel, Приводятся примеры исходного и сжатого речевым кодеком сигнала

Опции

Милливольт Просмотр профиля	Nov 12 2016, 05:25 Сообщение #31
Частый гость Группа: Участник Сообщений: 76 Регистрация: 17-05-15 Пользователь №: 86 729	Цитата(Mister_DSP @ Nov 11 2016, 13:39) Ниже выложил пробу звука на 978 бит/с - это тоже что и MELP 1200, только без битов FEC. Средний вариант между 1956 bps и 489 bps. Спасибо, полезно. У Вас в оригинальном файле какая-то предобработка? Вроде бы предварительное эхо? Я его ради интереса пропустил через свой кодек http://exfile.ru/483147 Если слушать через динамик, то, как мне кажется, мой вариант предпочтительнее, если же через наушники, то однозначно - МЕLP лучше.

Mister_DSP Просмотр профиля	Nov 12 2016, 14:42 Сообщение #32
Частый гость Группа: Участник Сообщений: 133 Регистрация: 5-11-16 Пользователь №: 94 050	Если вы спросили про первую пробу(где 2 голоса), то это запись с радио - может быть все что угодно: начиная от эха, заканчивая фоновыми звуками. -------------------- SPY vs. SPY Хорошо там, где нет ничего...

Милливольт Просмотр профиля	Nov 12 2016, 19:44 Сообщение #33
Частый гость Группа: Участник Сообщений: 76 Регистрация: 17-05-15 Пользователь №: 86 729	Всё, нет моих сил больше. В файле - последняя версия акустической части, ничего менять не буду. С вокодера, которому передается только нормированный энергетический спектр (без синусной и косинусной компонент), выжать что-нибудь еще невозможно. Пришлось отказаться от полулогарифмического сжатия сигнала, т.к. все эксперты морщили носы, говорили о "советском" звучании и т.п. Впрочем, замечания приму к сведению и буду за них признателен (виртуально, понятное дело). RESUL.WAV ( 80.08 килобайт ) Кол-во скачиваний: 70

z64 Просмотр профиля	Nov 12 2016, 21:24 Сообщение #34
Участник Группа: Участник Сообщений: 21 Регистрация: 15-10-05 Пользователь №: 9 675	Я правильно понял постановку задач. Нужно получить неузнаваемость голоса абонента?

Милливольт Просмотр профиля	Nov 12 2016, 21:45 Сообщение #35
Частый гость Группа: Участник Сообщений: 76 Регистрация: 17-05-15 Пользователь №: 86 729	Цитата(z64 @ Nov 12 2016, 22:24) Я правильно понял постановку задач. Нужно получить неузнаваемость голоса абонента? Нет, разумеется, у меня такой задачи не стоит. Пока только рожал ежика. Смысл родов в том, чтобы ограничиться минимумом информации как передаваемой по каналу связи, так и хранимой в приемном и передающем устройстве. При приемлемом качестве речи (хотя желания потенциальных пользователей в этом плане абсолютно нереалистичны).

Mister_DSP Просмотр профиля	Nov 13 2016, 04:40 Сообщение #36
Частый гость Группа: Участник Сообщений: 133 Регистрация: 5-11-16 Пользователь №: 94 050	какой битрейт (максимальный, пик) у последней звуковой пробы? Сообщение отредактировал Mister_DSP - Nov 13 2016, 04:41 -------------------- SPY vs. SPY Хорошо там, где нет ничего...

Милливольт Просмотр профиля	Nov 13 2016, 05:19 Сообщение #37
Частый гость Группа: Участник Сообщений: 76 Регистрация: 17-05-15 Пользователь №: 86 729	Цитата(Mister_DSP @ Nov 13 2016, 05:40) какой битрейт (максимальный, пик) у последней звуковой пробы? Такой же, не изменился. Для именно этой пробы - 850 без предварительного сжатия и 300 после Хаффмена. Изменил только окно данных в синтезаторе.

Mister_DSP Просмотр профиля	Nov 13 2016, 06:46 Сообщение #38
Частый гость Группа: Участник Сообщений: 133 Регистрация: 5-11-16 Пользователь №: 94 050	По качеству если 800 бит/с - то уступает MELP-у. Если 300 бит/с - превосходно для такого битрейта! Какой размер блока в байтах сжимаете Хаффманом? -------------------- SPY vs. SPY Хорошо там, где нет ничего...

Милливольт Просмотр профиля	Nov 13 2016, 06:52 Сообщение #39
Частый гость Группа: Участник Сообщений: 76 Регистрация: 17-05-15 Пользователь №: 86 729	Цитата(Mister_DSP @ Nov 13 2016, 07:46) Какой размер блока в байтах сжимаете Хаффманом? 300 миллисекунд

Mister_DSP Просмотр профиля	Nov 13 2016, 07:51 Сообщение #40
Частый гость Группа: Участник Сообщений: 133 Регистрация: 5-11-16 Пользователь №: 94 050	Сможет ли Хаффман пожать блок из 33 байт? Это 6 фреймов вокодера MELP, данные кореллируют между собой (параметры речевого сигнала) -------------------- SPY vs. SPY Хорошо там, где нет ничего...

Милливольт Просмотр профиля	Nov 13 2016, 09:20 Сообщение #41
Частый гость Группа: Участник Сообщений: 76 Регистрация: 17-05-15 Пользователь №: 86 729	Цитата(Mister_DSP @ Nov 13 2016, 08:51) Сможет ли Хаффман пожать блок из 33 байт? Это 6 фреймов вокодера MELP, данные кореллируют между собой (параметры речевого сигнала) Да, в каноническом включении здесь проблемы. Но если представлять последовательность байт в виде ДИКМ, причем невязку корректировать в последующем такте, то все очень недурно получается. Номера передаваемых спектров надо, понятное дело, изначально располагать по частости встречаемости и минимальному ожидаемому приращению на последующем такте. Этот метод мы отработали еще при цифровой передаче ЭКГ через акустический канал мобильника (как говорит ув. GeGel "поверх GSM"). (это лучше нарисовать, т.к. я что-то косноязычно выражаюсь). Для иллюстрации та же запись с разным битрейтом. Это без(!) Хаффмена, просто передаваемые спектры обновляются не при появлении каждой новой "особой точки", а через такт RESUL400.WAV ( 80.08 килобайт ) Кол-во скачиваний: 74 , через два такта, через три, т.е. время обновления спектра становится не приблизительно 10 мсек изначально, а 20...30.. и т.д. RESUL200.WAV ( 80.08 килобайт ) Кол-во скачиваний: 56 RESUL150.WAV ( 80.08 килобайт ) Кол-во скачиваний: 62 RESUL100.WAV ( 80.08 килобайт ) Кол-во скачиваний: 68 Из этих иллюстраций хорошо видно (слышно) как действительно сильно коррелирован речевой сигнал. Сообщение отредактировал Милливольт - Nov 13 2016, 09:21

Mister_DSP Просмотр профиля	Nov 13 2016, 14:04 Сообщение #42
Частый гость Группа: Участник Сообщений: 133 Регистрация: 5-11-16 Пользователь №: 94 050	При таких крохотных битрейтах вышло великолепно! Речь на грани разборчивости, зато в узкие каналы пролезет. Единственно в пробе на 100 бит/с фрагменты слов проглатываются - это плохо. А так в целом отлично! Если спектр не обновляется, а только через такт: выходит вы просто дублируете синтез волны при декодировании или как? Я так делал, получается голосовой джиттер. Фрейм у меня 22,5 мс. Пробовал LSP брать через раз - нормально выходит, но если брать через 3 раза, то уже неприемлемо. Мой мод кодека до 381 бит/с ещё можно уменьшить путём загрубления Pitch/Gain/BPV. LSP лучше не трогать. Но качество пострадает, расборчивость на грани. -------------------- SPY vs. SPY Хорошо там, где нет ничего...

Милливольт Просмотр профиля	Nov 14 2016, 17:50 Сообщение #43
Частый гость Группа: Участник Сообщений: 76 Регистрация: 17-05-15 Пользователь №: 86 729	Цитата(Mister_DSP @ Nov 13 2016, 15:04) Единственно в пробе на 100 бит/с фрагменты слов проглатываются - это плохо. В очередной раз спасибо за ценное замечание. Устранил. RESUL100.WAV ( 80.08 килобайт ) Кол-во скачиваний: 78 Но для стабильного потока без сжатия не получается 100 - только 120. Т.е. 1 раз в 100 мсек передается номер спектра (8 бит) плюс количество повторений в течение этого периода времени (4 бита). Итого 12 бит за 100 мсек, соответственно 120 бит/сек. Звук грубоватый, конечно, не выйдет говорить в итальянском темпе, но для служебной связи, возможно, и будет приемлемо. Вообще, рекорды битрейта - не самоцель. А вот передача поверх GSM должна показать кто есть ху. Сообщение отредактировал Милливольт - Nov 14 2016, 17:51

Mister_DSP Просмотр профиля	Nov 16 2016, 05:18 Сообщение #44
Частый гость Группа: Участник Сообщений: 133 Регистрация: 5-11-16 Пользователь №: 94 050	Пробовал навернуть Рида-Соломона на пакет 6x6 байт - раздул до 8x8 байт (добавочные 2x8 8x2 и 2x2). Потребовалось увеличить битрейт модема в 2 раза. В итоге только хуже -много пакетов теряется в дальней зоне, а в ближней - с искажениями. Видать, чутьё упало на 3дБ, поэтому пакетов нет, коррекция простаивает.... Так что Ваш интерес снижать битрейт - очень восстребованное ИМХО дело! Сообщение отредактировал Mister_DSP - Nov 16 2016, 05:18 -------------------- SPY vs. SPY Хорошо там, где нет ничего...

Милливольт Просмотр профиля	Nov 16 2016, 08:56 Сообщение #45
Частый гость Группа: Участник Сообщений: 76 Регистрация: 17-05-15 Пользователь №: 86 729	Цитата(Mister_DSP @ Nov 16 2016, 06:18) В итоге только хуже -много пакетов теряется в дальней зоне, а в ближней - с искажениями. У нас при разработке микромощной телеметрии для использования внутри зданий была та же самая история. Ничего из общеупотребительных средств не помогало. Но в итоге проблема решилась успешно. Если это будет уместным, опишу подробно.

« Предыдущая тема · Алгоритмы ЦОС (DSP) · Следующая тема »

8 страниц

< 1 2 3 4 5 > »

2 чел. читают эту тему (гостей: 2, скрытых пользователей: 0)

Пользователей: 0

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Текстовая версия

Сейчас: 18th June 2025 - 19:23