MELP (MELPe) 600 - Форум разработчиков электроники ELECTRONIX.ru

реклама на сайте
подробности

Wiki

Photo

Forum

Reviews

Help (!)

Форум разработчиков электроники ELECTRONIX.ru > Цифровая обработка сигналов - ЦОС (DSP) > Алгоритмы ЦОС (DSP)

MELP (MELPe) 600, всё про него

Опции

kaktus_M Просмотр профиля	Apr 16 2017, 11:17 Сообщение #1
Группа: Участник Сообщений: 5 Регистрация: 16-04-17 Пользователь №: 96 565	Уважаемые форумчане! Мозг требует постоянных движений в динамике,сложа руки сидеть никогда и не подумывал, а доступных исходников на MELP 600 бит/с я не видел. Научные статьи на эту тему, которые довелось мне видеть, содержат финальные результаты и в кратце то, что было проделано. Никакой конкретики нет и не было. Поэтому осмелился восполнить пробел и сделать MELP 600 бит/с самому. За основу были взяты исходники от MELP 2400 бит/с (референтный код, с плавающей точкой). Заставив его собираться в GCC, начал эксперименты. Как известно, исходный фрейм в MELP 2400 - это 22,5 мс, что соответствует 180 одноканальным семплам. Биты фрейма расписываются так: Линейно-спектральные частоты - 7+6+6+6 бит = 25 бит (10 LSF частот типа float(4 байта) векторно квантуются в 4 стадии) Магнитуды Фурье: 10 бит Энергия фрейма: 5 + 3 бита - квантуется по половине фрейма Основной тон - 7 бит Фильтры по 4-м полосам: 4 бита Джиттер: 1бит Синхробит - 1 бит Путём экспериментов выяснил, несколько важных моментов: 1) Магнитуды Фурье можно выкинуть, вместо них домножить на 1.0 2) Синхробит- вообще не нужен 3) Джиттер - информация тривиальная и получается вычислением других данных Получается, вместо 56 бит можно использовать только 44 бита без заметного ухудшения качества и распознаемости речи. Далее, известно, что параметры человеческой речи могут быть описаны стационарно без потерь разборчивости на фреймах длительностью не более 40 мс. Что соответствует 320 семплам при Fs=8кГц. Именно фреймы такой длины используются в кодеке Codec2 (опции с малыми битрейтами). Выбор между Codec2 и MELP2400 в качестве отправной точки тоже неслучаен. Эксперименты показали, что Codec2 крайне не поддается шумоподавлению с помощью адаптивных фильтров - флуктуации помехи на фоне полезного сигнала сохраняются и ведут к резкому падению речевой разборчивости. Зато MELP2400 отлично работает с адаптивным шумоподавителем, речь без дополнительных фоновых звуков. Основная трудность: создание своей собственной кодовой книги путём векторного квантования. Нужно из речевых фрагментов получать 10 LSP коэффициентов, затем их преобразовывать в LSF-коэффициенты. Всё это отражено в исходниках MELP2400. Проблема возникла на этапе векторного квантования LSF - было непонятно, как из векторов LSF оставить только те, которые нетривиальныпо отношению друг к другу. Читал про LGB-алгоритми про центроиды: кроме теории практических примеров - ноль, не говоряуже о том что квантование должно быть мульти-стадийным. Завершилась эпопея с кодовой книгой - путем скачивания с pudn.com программы одного китайского гражданина, которая после допиливанияделала то что надо! А именно: из LSF-векторов строила кодовую книгу - оставляла нетривиальные вектора, да и причем уровень разрядности и количество стадий можно кастомно задать! Не буду напрягать промежуточными изысканиями, скажу что данного битового распределения хватает чтобы получить MELP600: LSF: 8 бит - одноуровневое векторное квантование (256 элементов кодовой книги из голоса конкретного диктора) Gain: 5 бит - усиление усредняетсяза2 полуфрейма и квантуется скалярно 32 значениями Pitch: 7 бит- тут без изменений BPV: 4 бит- тоже без изменений Итого 24 бита- ровно 3 байта на 1 фрейм. Фрейм взят 40 мс - 320 семплов. При таком раскладе получаем MELP со скоростью 600 бит/с. Сделал несколько наглядных иллюстраций : 2 прикрепленых архива. В каждом: оригинал + синтезированная вокодером запись. Брал голоса дикторов (женский голос). Vahonina_Elvira.rar ( 913.3 килобайт ) Кол-во скачиваний: 56 Собственно вот в чём вопрос: 1) годится ли полученный MELP 600 бит/с в качестве вокодера для служебной радиосвязи? 2) какова разборчивость в процентах от всего звукового образца? 3) Помогите с векторным квантованием четырёх величин - по какому алгоритму можно проквантовать уровни громкости в 4-х соседних фреймах? Звуковая иллюстрация второго диктора: Baldenkova_Svetlana.part1.rar ( 700 килобайт ) Кол-во скачиваний: 49 Baldenkova_Svetlana.part2.rar ( 571.63 килобайт ) Кол-во скачиваний: 44

Ответов

kaktus_M Просмотр профиля	Apr 17 2017, 08:02 Сообщение #2
Группа: Участник Сообщений: 5 Регистрация: 16-04-17 Пользователь №: 96 565	Осмелился векторно проквантовать параметры: Pitch, Gain и BPV. Приятно был удивлен, что векторное квантование хорошо жмет с минимальными потерями плавно меняющиеся данные. Размер фрейма вернул на прежнее: 180 семплов. Зато применил мультифреймовое квантование: брал 4 смежных фрейма и квантовал соответстующие параметры. Биты распределены так: LSF: VQ(8) + VQ(8) + VQ(8) + VQ(8) - в оригинальном MELP2400 было MSVQ(7+6+6+6)на 1 фрейм, а тут 4 фрейма по VQ(8) что снижает точность, но если со своей кодовой книгой, то нормально! GAIN: VQ(9) - в оригинальном MELP было просто 8 бит(5+3) без квантования между фреймами PITCH: VQ(8) - в оригинале было 7 бит без квантования между фреймами BPVC: VQ(5) - в оригинале было 4 бита без межфреймового квантования Итого: 8+8+8+8+9+8+5 = 54 бита на 4 фрейма, что точно соответствует 600 бит/с. Результат: межфреймовое векторное квантование - отлично сжимает данные ссильной корреляцией почти без потерь качества. Звуковая иллюстрация такого сета MELP 600: melp600bps.rar ( 355.5 килобайт ) Кол-во скачиваний: 41 Если увеличить размер фрейма в 2 раза (и размеры LPC- и FFT- окон тоже в 2 раза) - то тупо получаем MELP 300 bps. Правда это уже халтура - фрейм 360 семплов = 45 мс, параметры речи уже плохо описываются как стационарные. Имеем местами нечленораздельное звучание - тут только говорить по-медленнее. Ради любопытства прикладываю MELP 300(черновик): melp300bps.rar ( 348.61 килобайт ) Кол-во скачиваний: 36 Кодовая книга в образцах, конечно же сделана своя под голос диктора! Надо будет ещё попробовать применить векторное квантование к 40 LSF коэффициентам чтобы сжать 29 бит MSVQ. Тогда: LSF MSVQ(8+7+7+7) PITCH VQ(9) GAIN VQ(10) BPVC VQ(6) Те же 54 бита на 4 фрейма, но LSF более эффективно пожата,что позволяет закодировать LSF-ы 4-х фреймов сразу! Проверял на чужих голосах без переделки кодовых книг - работает, на 600 бит/с разборчиво, но характер голоса становится другим. У кого какой опыт возни с низкобитрейтовыми вокодерами, тема актуальна или нет? Мне вот надо -133 дБм вприемнике выжать, поэтомуснижаю скорость передачи

Милливольт Просмотр профиля	Apr 17 2017, 10:42 Сообщение #3
Частый гость Группа: Участник Сообщений: 76 Регистрация: 17-05-15 Пользователь №: 86 729	Цитата(kaktus_M @ Apr 17 2017, 08:02) У кого какой опыт возни с низкобитрейтовыми вокодерами, тема актуальна или нет? Мне вот надо -133 дБм вприемнике выжать, поэтомуснижаю скорость передачи Просмотрите сообщения Mister_DSP в этом разделе: он ставил точно такую же задачу и в итоге пришел к решению.

Сообщений в этой теме

kaktus_M MELP (MELPe) 600 Apr 16 2017, 11:17

kaktus_M Осмелился векторно проквантовать параметры: Pitch,... Apr 17 2017, 08:02

Милливольт Цитата(kaktus_M @ Apr 17 2017, 08:02) У к... Apr 17 2017, 10:42

petrov Цитата(Милливольт @ Apr 17 2017, 13:42) П... Apr 17 2017, 11:13

Dr.Alex Цитата(kaktus_M @ Apr 17 2017, 11:02) Мне... Apr 17 2017, 10:56

kaktus_M petrov, Вы правы, M_DSP это я... Пришлось зарегат... Apr 18 2017, 13:25

_pv Цитата(kaktus_M @ Apr 18 2017, 19:25) Цит... Apr 18 2017, 14:55

Dr.Alex Цитата(kaktus_M @ Apr 18 2017, 16:25) Ест... Apr 18 2017, 16:33

_pv я сварщик не настоящий, но 5E-17Вт на входных 50Ом... Apr 18 2017, 19:29

Dr.Alex А теперь со всем этим барахлом мы попытаемсо взлет... Apr 18 2017, 22:21

kaktus_M По части шума, полосы и сигналов. Использую приемн... Apr 19 2017, 06:39

Dr.Alex Цитата(kaktus_M @ Apr 19 2017, 09:39) кур... Apr 19 2017, 14:57

« Предыдущая тема · Алгоритмы ЦОС (DSP) · Следующая тема »

1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)

Пользователей: 0

Режим отображения: Переключить на: Стандартный · Переключить на: Линейный · Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Текстовая версия

Сейчас: 21st August 2025 - 16:56