реклама на сайте
подробности

 
 
2 страниц V   1 2 >  
Reply to this topicStart new topic
> Голосовой синтезатор на STM32F4xx, Кто-нибудь делал что-то путящее?))
mantech
сообщение Jan 11 2014, 10:42
Сообщение #1


Гуру
******

Группа: Участник
Сообщений: 2 219
Регистрация: 16-08-12
Из: Киров
Пользователь №: 73 143



Собственно есть небольшая задачка rolleyes.gif , сбацать вот такую штуковину, чтобы при вводе текста, контроллер проговаривал его, например, через встроенный ЦАП. Ну и самое главное, чтоб это было хотябы более-менее похоже на чел. голос biggrin.gif

Может кто уже что-то подобное делал?
Go to the top of the page
 
+Quote Post
Aner
сообщение Jan 11 2014, 10:54
Сообщение #2


Гуру
******

Группа: Свой
Сообщений: 4 869
Регистрация: 28-02-08
Из: СПБ
Пользователь №: 35 463



Только с кодеком более-менее получиться, цап у 4хх не то. Проходили это. Посмотрите как это у китацев сделано.
Go to the top of the page
 
+Quote Post
mantech
сообщение Jan 11 2014, 10:59
Сообщение #3


Гуру
******

Группа: Участник
Сообщений: 2 219
Регистрация: 16-08-12
Из: Киров
Пользователь №: 73 143



Цитата(Aner @ Jan 11 2014, 14:54) *
Только с кодеком более-менее получиться, цап у 4хх не то. Проходили это. Посмотрите как это у китацев сделано.


Да не скажите - работает wav плеер на встроенном цапе - качество вполне достойное, еслиб он так текст проговаривал, то это просто шикарно будет!
Go to the top of the page
 
+Quote Post
Aner
сообщение Jan 11 2014, 11:55
Сообщение #4


Гуру
******

Группа: Свой
Сообщений: 4 869
Регистрация: 28-02-08
Из: СПБ
Пользователь №: 35 463



.. тут как скаать, .. может кого и три ноты устраивает в музыке, ... и это просто шикарно будет!
Но, я бы хотел семь нот слышать и их сочетания, комбинации и тп.
Go to the top of the page
 
+Quote Post
mantech
сообщение Jan 11 2014, 13:26
Сообщение #5


Гуру
******

Группа: Участник
Сообщений: 2 219
Регистрация: 16-08-12
Из: Киров
Пользователь №: 73 143



Цитата(Aner @ Jan 11 2014, 15:55) *
.. тут как скаать, .. может кого и три ноты устраивает в музыке, ... и это просто шикарно будет!
Но, я бы хотел семь нот слышать и их сочетания, комбинации и тп.


Тут дело не в нотах и музыке biggrin.gif

Вы когда по сотику разговариваете, ведь прекрасно понимаете собеседника, а тут качество в 2 раза выше.

Никто не говорит о качестве музыкального воспроизведения, это просто голос, сложность в формировании звуков, т.е. конечно, можно назаписывать кучу слов, проиндексировать и потом загружать и проигрывать, НО это будет занимать очень много места (хотя решается картой памяти), и пригодно только для проговаривания числительных, а вот как сделать синтез слов?
Go to the top of the page
 
+Quote Post
Alex11
сообщение Jan 11 2014, 20:38
Сообщение #6


Гуру
******

Группа: Свой
Сообщений: 2 106
Регистрация: 23-10-04
Из: С-Петербург
Пользователь №: 965



Если только числительные - тогда это не очень много места. Синтез нормальный займет его существенно больше (русский). И времени на разработку потратите ...дцать человеко-лет, пока можно будет слушать без тошноты.
Go to the top of the page
 
+Quote Post
mantech
сообщение Jan 12 2014, 06:31
Сообщение #7


Гуру
******

Группа: Участник
Сообщений: 2 219
Регистрация: 16-08-12
Из: Киров
Пользователь №: 73 143



Цитата(Alex11 @ Jan 12 2014, 00:38) *
Если только числительные - тогда это не очень много места. Синтез нормальный займет его существенно больше (русский). И времени на разработку потратите ...дцать человеко-лет, пока можно будет слушать без тошноты.


В принципе - согласен. Во первых, слушать без тошноты можно только навороченные версии фестиваля с всяческими интерполяциями и т.д. Посмотрел на их объем кода - цать человеколет обеспечено crying.gif

И второе - как правило в задачах нужно проговаривание каких-либо фраз типа "у вас осталось" NNN "чего-то там", а вот числа - это вещь полезная, причем уже делал все это на компе.

Вобщем тема можно сказать, закрыта laughing.gif
Go to the top of the page
 
+Quote Post
Salamander
сообщение Jan 12 2014, 07:32
Сообщение #8


Местный
***

Группа: Участник
Сообщений: 466
Регистрация: 17-11-12
Пользователь №: 74 443



У STMicroelectronix есть проект под STM32F103xx и кодек SPEEX.
Есть там функции как realtime речи, так и воспроизведения из FLASH заранее записанного фрагмента.
Я реализовал цифровую рацию на cc1101 и этом кодеке. Работает прекрасно, скорость передачи данных 10 кбит/сек, качество не хуже чем в мобильнике.

Сообщение отредактировал Salamander - Jan 12 2014, 07:33
Go to the top of the page
 
+Quote Post
jcxz
сообщение Jan 12 2014, 09:27
Сообщение #9


Гуру
******

Группа: Свой
Сообщений: 5 228
Регистрация: 3-07-08
Из: Омск
Пользователь №: 38 713



Цитата(mantech @ Jan 12 2014, 12:31) *
В принципе - согласен. Во первых, слушать без тошноты можно только навороченные версии фестиваля с всяческими интерполяциями и т.д. Посмотрел на их объем кода - цать человеколет обеспечено crying.gif

Когда-то (во времена ДОС) на PC писал читалку книжек. sm.gif
Так как своих знаний не хватало для создания своего синтезатора, то использовал готовый (уже тогда они были).
Я использовал Фонемафон. Исходники его мне найти не удалось, но имелся исполняемый бинарник. Я его частично дизассемблировал, нашёл точки входа
нужных функций, завернул в библиотеку и прилинковал к своей программе.
Качество звучания было вполне приемлемым для прослушивания книжек. Его можно было ещё существенно повысить если расставить ударения в словах.
Но найти открытых словарей с ударениями для русских слов мне тогда не удалось, сделал сам на какое-то кол-во слов.
Я потом много книжек прочитал (т.е. - прослушал) с помощью него. sm.gif
Так вот - тот исходный исполняемый бинарник весил менее 64К. И большая часть там как я понимаю не код, а некие структуры данных.
Работало это у меня на i486 на 100МГц. sm.gif
Исходный Фонемафон который я использовал был образца 1991 года. Возможно за это время где-то в сети появились его исходники.
Если их найти, то судя по всему современный Cortex-M3 вполне его потянет по ресурсам (памяти и быстродействию).
Попробуйте погуглить: СИНТЕЗАТОР РУССКОЙ РЕЧИ "ФОНЕМАФОН"
Если интересно, приаттачиваю сюда доку от него: Прикрепленный файл  README.ZIP ( 10.25 килобайт ) Кол-во скачиваний: 69
Go to the top of the page
 
+Quote Post
AlexandrY
сообщение Jan 12 2014, 09:56
Сообщение #10


Ally
******

Группа: Модераторы
Сообщений: 6 232
Регистрация: 19-01-05
Пользователь №: 2 050



Цитата(jcxz @ Jan 12 2014, 11:27) *
Когда-то (во времена ДОС) на PC писал читалку книжек. sm.gif

Качество звучания было вполне приемлемым для прослушивания книжек. Его можно было ещё существенно повысить если расставить ударения в словах.


А вам память случайно не изменяет?
Даже сейчас движки текст-в-речь очень часто дают нечто неразборчивое.
Без специальной разметки текста специально для проговаривания получается очень посредственное качество различимости некоторых выражений.

Т.е. сложность даже не в воспроизведении, а в специальной разметке текста.
Кто ее будет специально делать для встраиваемого устройства?

Фича воспроизведения голосом произвольных текстов очень рискованная с точки зрения юзабельности и лучше ее опробывать базируясь на WEB сервисах. А их кстати теперь очень много. Например - https://www.vocalware.com/
Время отклика вполне приемлемое.
Фразы, как понимаю, можно конвертировать и не в реальном времени.
Тут надо спросить сразу откуда может появляться сам динамический текст в приложении на Cortex-M4? Скорее всего весь текст уже известен на этапе компиляции.
Go to the top of the page
 
+Quote Post
jcxz
сообщение Jan 12 2014, 10:36
Сообщение #11


Гуру
******

Группа: Свой
Сообщений: 5 228
Регистрация: 3-07-08
Из: Омск
Пользователь №: 38 713



Цитата(AlexandrY @ Jan 12 2014, 15:56) *
А вам память случайно не изменяет?
Даже сейчас движки текст-в-речь очень часто дают нечто неразборчивое.
Без специальной разметки текста специально для проговаривания получается очень посредственное качество различимости некоторых выражений.

Случайно - нет. В сети можно найти образцы звучания Фонемафона. Качество конечно пониже чем у современных, но книжки можно слушать вполне разборчиво.
И про ударения я писал.

Цитата(AlexandrY @ Jan 12 2014, 15:56) *
Тут надо спросить сразу откуда может появляться сам динамический текст в приложении на Cortex-M4? Скорее всего весь текст уже известен на этапе компиляции.

И что? Размер такого текста на порядки меньше чем его представления в аудиоданных. А для встраиваемых систем это критично.
А может быть и динамический, если устройство принимает некие данные извне и их озвучивает.
Go to the top of the page
 
+Quote Post
muravei
сообщение Jan 12 2014, 13:54
Сообщение #12


Гуру
******

Группа: Свой
Сообщений: 2 538
Регистрация: 13-08-05
Пользователь №: 7 591



Цитата(mantech @ Jan 12 2014, 09:31) *
только навороченные версии фестиваля

А Flite не прокатит?
Go to the top of the page
 
+Quote Post
x893
сообщение Jan 12 2014, 15:01
Сообщение #13


Профессионал
*****

Группа: Свой
Сообщений: 1 333
Регистрация: 27-10-08
Из: Планета Земля
Пользователь №: 41 226



Цитата(Salamander @ Jan 12 2014, 11:32) *
У STMicroelectronix есть проект под STM32F103xx и кодек SPEEX.
Есть там функции как realtime речи, так и воспроизведения из FLASH заранее записанного фрагмента.
Я реализовал цифровую рацию на cc1101 и этом кодеке. Работает прекрасно, скорость передачи данных 10 кбит/сек, качество не хуже чем в мобильнике.


А более подробно с этим можно где-то ознакомится ?
Go to the top of the page
 
+Quote Post
mantech
сообщение Jan 12 2014, 16:55
Сообщение #14


Гуру
******

Группа: Участник
Сообщений: 2 219
Регистрация: 16-08-12
Из: Киров
Пользователь №: 73 143



Цитата(AlexandrY @ Jan 12 2014, 13:56) *
Фича воспроизведения голосом произвольных текстов очень рискованная с точки зрения юзабельности и лучше ее опробывать базируясь на WEB сервисах. А их кстати теперь очень много. Например - https://www.vocalware.com/
Время отклика вполне приемлемое.
Фразы, как понимаю, можно конвертировать и не в реальном времени.
Тут надо спросить сразу откуда может появляться сам динамический текст в приложении на Cortex-M4? Скорее всего весь текст уже известен на этапе компиляции.


Возможно, но как правило нужно качественное подключение к инету, а в моем случае рассматривается полностью автономное устройство.

Да, как правило фразы уже заготовлены, но есть числа, которые меняются, поэтому и написал, что достаточно числительных. Да при этом существует ограничение, но все-таки у меня нет задачи делать читалку книг, а просто голосовое меню - так что пойдет, зато голос будет как у человека, а не нечто похожее на голос biggrin.gif

Ну и в третьих - голос планируется передавать через телефонную или сотовую сеть, и это еще добавляет вклад в неразборчивость голоса, так что какой-либо фонемный синтезатор его ухудшит еще сильнее...
Go to the top of the page
 
+Quote Post
AlexandrY
сообщение Jan 12 2014, 18:21
Сообщение #15


Ally
******

Группа: Модераторы
Сообщений: 6 232
Регистрация: 19-01-05
Пользователь №: 2 050



Цитата(mantech @ Jan 12 2014, 18:55) *
Ну и в третьих - голос планируется передавать через телефонную или сотовую сеть, и это еще добавляет вклад в неразборчивость голоса, так что какой-либо фонемный синтезатор его ухудшит еще сильнее...


Современные TTS движки проговаривают числа целиком без синтеза.
Go to the top of the page
 
+Quote Post

2 страниц V   1 2 >
Reply to this topicStart new topic
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 


RSS Текстовая версия Сейчас: 17th July 2025 - 22:59
Рейтинг@Mail.ru


Страница сгенерированна за 0.02199 секунд с 7
ELECTRONIX ©2004-2016