реклама на сайте
подробности

 
 
> MELP (MELPe) 600, всё про него
kaktus_M
сообщение Apr 16 2017, 11:17
Сообщение #1





Группа: Участник
Сообщений: 5
Регистрация: 16-04-17
Пользователь №: 96 565



Уважаемые форумчане!

Мозг требует постоянных движений в динамике,сложа руки сидеть никогда и не подумывал, а доступных исходников на MELP 600 бит/с я не видел.
Научные статьи на эту тему, которые довелось мне видеть, содержат финальные результаты и в кратце то, что было проделано.
Никакой конкретики нет и не было.

Поэтому осмелился восполнить пробел и сделать MELP 600 бит/с самому. sm.gif
За основу были взяты исходники от MELP 2400 бит/с (референтный код, с плавающей точкой).
Заставив его собираться в GCC, начал эксперименты.

Как известно, исходный фрейм в MELP 2400 - это 22,5 мс, что соответствует 180 одноканальным семплам.
Биты фрейма расписываются так:
Линейно-спектральные частоты - 7+6+6+6 бит = 25 бит (10 LSF частот типа float(4 байта) векторно квантуются в 4 стадии)
Магнитуды Фурье: 10 бит
Энергия фрейма: 5 + 3 бита - квантуется по половине фрейма
Основной тон - 7 бит
Фильтры по 4-м полосам: 4 бита
Джиттер: 1бит
Синхробит - 1 бит

Путём экспериментов выяснил, несколько важных моментов:

1) Магнитуды Фурье можно выкинуть, вместо них домножить на 1.0
2) Синхробит- вообще не нужен
3) Джиттер - информация тривиальная и получается вычислением других данных

Получается, вместо 56 бит можно использовать только 44 бита без заметного ухудшения качества и распознаемости речи.

Далее, известно, что параметры человеческой речи могут быть описаны стационарно без потерь разборчивости на фреймах длительностью не более 40 мс.
Что соответствует 320 семплам при Fs=8кГц.
Именно фреймы такой длины используются в кодеке Codec2 (опции с малыми битрейтами).

Выбор между Codec2 и MELP2400 в качестве отправной точки тоже неслучаен.
Эксперименты показали, что Codec2 крайне не поддается шумоподавлению с помощью адаптивных фильтров - флуктуации помехи на фоне полезного сигнала сохраняются и ведут к резкому падению речевой разборчивости.
Зато MELP2400 отлично работает с адаптивным шумоподавителем, речь без дополнительных фоновых звуков.

Основная трудность: создание своей собственной кодовой книги путём векторного квантования.
Нужно из речевых фрагментов получать 10 LSP коэффициентов, затем их преобразовывать в LSF-коэффициенты.
Всё это отражено в исходниках MELP2400.

Проблема возникла на этапе векторного квантования LSF - было непонятно, как из векторов LSF оставить только те, которые нетривиальныпо отношению друг к другу.
Читал про LGB-алгоритми про центроиды: кроме теории практических примеров - ноль, не говоряуже о том что квантование должно быть мульти-стадийным.

Завершилась эпопея с кодовой книгой - путем скачивания с pudn.com программы одного китайского гражданина, которая после допиливанияделала то что надо!
А именно: из LSF-векторов строила кодовую книгу - оставляла нетривиальные вектора, да и причем уровень разрядности и количество стадий можно кастомно задать!

Не буду напрягать промежуточными изысканиями, скажу что данного битового распределения хватает чтобы получить MELP600:

LSF: 8 бит - одноуровневое векторное квантование (256 элементов кодовой книги из голоса конкретного диктора)
Gain: 5 бит - усиление усредняетсяза2 полуфрейма и квантуется скалярно 32 значениями
Pitch: 7 бит- тут без изменений
BPV: 4 бит- тоже без изменений

Итого 24 бита- ровно 3 байта на 1 фрейм.
Фрейм взят 40 мс - 320 семплов.

При таком раскладе получаем MELP со скоростью 600 бит/с.

Сделал несколько наглядных иллюстраций : 2 прикрепленых архива.
В каждом: оригинал + синтезированная вокодером запись.

Брал голоса дикторов (женский голос).

Прикрепленный файл  Vahonina_Elvira.rar ( 913.3 килобайт ) Кол-во скачиваний: 56


Собственно вот в чём вопрос:

1) годится ли полученный MELP 600 бит/с в качестве вокодера для служебной радиосвязи?
2) какова разборчивость в процентах от всего звукового образца?

3) Помогите с векторным квантованием четырёх величин - по какому алгоритму можно проквантовать уровни громкости в 4-х соседних фреймах?

Звуковая иллюстрация второго диктора:

Прикрепленный файл  Baldenkova_Svetlana.part1.rar ( 700 килобайт ) Кол-во скачиваний: 49

Прикрепленный файл  Baldenkova_Svetlana.part2.rar ( 571.63 килобайт ) Кол-во скачиваний: 44
Go to the top of the page
 
+Quote Post
 
Start new topic
Ответов
kaktus_M
сообщение Apr 17 2017, 08:02
Сообщение #2





Группа: Участник
Сообщений: 5
Регистрация: 16-04-17
Пользователь №: 96 565



Осмелился векторно проквантовать параметры: Pitch, Gain и BPV.
Приятно был удивлен, что векторное квантование хорошо жмет с минимальными потерями плавно меняющиеся данные.

Размер фрейма вернул на прежнее: 180 семплов.

Зато применил мультифреймовое квантование: брал 4 смежных фрейма и квантовал соответстующие параметры.

Биты распределены так:

LSF: VQ(8) + VQ(8) + VQ(8) + VQ(8) - в оригинальном MELP2400 было MSVQ(7+6+6+6)на 1 фрейм, а тут 4 фрейма по VQ(8) что снижает точность, но если со своей кодовой книгой, то нормально!

GAIN: VQ(9) - в оригинальном MELP было просто 8 бит(5+3) без квантования между фреймами

PITCH: VQ(8) - в оригинале было 7 бит без квантования между фреймами

BPVC: VQ(5) - в оригинале было 4 бита без межфреймового квантования

Итого: 8+8+8+8+9+8+5 = 54 бита на 4 фрейма, что точно соответствует 600 бит/с.

Результат: межфреймовое векторное квантование - отлично сжимает данные ссильной корреляцией почти без потерь качества.

Звуковая иллюстрация такого сета MELP 600:
Прикрепленный файл  melp600bps.rar ( 355.5 килобайт ) Кол-во скачиваний: 41


Если увеличить размер фрейма в 2 раза (и размеры LPC- и FFT- окон тоже в 2 раза) - то тупо получаем MELP 300 bps.
Правда это уже халтура - фрейм 360 семплов = 45 мс, параметры речи уже плохо описываются как стационарные.
Имеем местами нечленораздельное звучание - тут только говорить по-медленнее.

Ради любопытства прикладываю MELP 300(черновик):
Прикрепленный файл  melp300bps.rar ( 348.61 килобайт ) Кол-во скачиваний: 36


Кодовая книга в образцах, конечно же сделана своя под голос диктора!

Надо будет ещё попробовать применить векторное квантование к 40 LSF коэффициентам чтобы сжать 29 бит MSVQ.

Тогда:
LSF MSVQ(8+7+7+7)
PITCH VQ(9)
GAIN VQ(10)
BPVC VQ(6)

Те же 54 бита на 4 фрейма, но LSF более эффективно пожата,что позволяет закодировать LSF-ы 4-х фреймов сразу!

Проверял на чужих голосах без переделки кодовых книг - работает, на 600 бит/с разборчиво, но характер голоса становится другим.

У кого какой опыт возни с низкобитрейтовыми вокодерами, тема актуальна или нет?

Мне вот надо -133 дБм вприемнике выжать, поэтомуснижаю скорость передачи
Go to the top of the page
 
+Quote Post
Милливольт
сообщение Apr 17 2017, 10:42
Сообщение #3


Частый гость
**

Группа: Участник
Сообщений: 76
Регистрация: 17-05-15
Пользователь №: 86 729



Цитата(kaktus_M @ Apr 17 2017, 08:02) *
У кого какой опыт возни с низкобитрейтовыми вокодерами, тема актуальна или нет?

Мне вот надо -133 дБм вприемнике выжать, поэтомуснижаю скорость передачи


Просмотрите сообщения Mister_DSP в этом разделе: он ставил точно такую же задачу и в итоге пришел к решению.
Go to the top of the page
 
+Quote Post



Reply to this topicStart new topic
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 


RSS Текстовая версия Сейчас: 28th June 2025 - 19:46
Рейтинг@Mail.ru


Страница сгенерированна за 0.01368 секунд с 7
ELECTRONIX ©2004-2016