|
Голосовой синтезатор на STM32F4xx, Кто-нибудь делал что-то путящее?)) |
|
|
|
Jan 11 2014, 13:26
|
Гуру
     
Группа: Участник
Сообщений: 2 219
Регистрация: 16-08-12
Из: Киров
Пользователь №: 73 143

|
Цитата(Aner @ Jan 11 2014, 15:55)  .. тут как скаать, .. может кого и три ноты устраивает в музыке, ... и это просто шикарно будет! Но, я бы хотел семь нот слышать и их сочетания, комбинации и тп. Тут дело не в нотах и музыке Вы когда по сотику разговариваете, ведь прекрасно понимаете собеседника, а тут качество в 2 раза выше. Никто не говорит о качестве музыкального воспроизведения, это просто голос, сложность в формировании звуков, т.е. конечно, можно назаписывать кучу слов, проиндексировать и потом загружать и проигрывать, НО это будет занимать очень много места (хотя решается картой памяти), и пригодно только для проговаривания числительных, а вот как сделать синтез слов?
|
|
|
|
|
Jan 12 2014, 09:27
|
Гуру
     
Группа: Свой
Сообщений: 5 228
Регистрация: 3-07-08
Из: Омск
Пользователь №: 38 713

|
Цитата(mantech @ Jan 12 2014, 12:31)  В принципе - согласен. Во первых, слушать без тошноты можно только навороченные версии фестиваля с всяческими интерполяциями и т.д. Посмотрел на их объем кода - цать человеколет обеспечено  Когда-то (во времена ДОС) на PC писал читалку книжек.  Так как своих знаний не хватало для создания своего синтезатора, то использовал готовый (уже тогда они были). Я использовал Фонемафон. Исходники его мне найти не удалось, но имелся исполняемый бинарник. Я его частично дизассемблировал, нашёл точки входа нужных функций, завернул в библиотеку и прилинковал к своей программе. Качество звучания было вполне приемлемым для прослушивания книжек. Его можно было ещё существенно повысить если расставить ударения в словах. Но найти открытых словарей с ударениями для русских слов мне тогда не удалось, сделал сам на какое-то кол-во слов. Я потом много книжек прочитал (т.е. - прослушал) с помощью него.  Так вот - тот исходный исполняемый бинарник весил менее 64К. И большая часть там как я понимаю не код, а некие структуры данных. Работало это у меня на i486 на 100МГц.  Исходный Фонемафон который я использовал был образца 1991 года. Возможно за это время где-то в сети появились его исходники. Если их найти, то судя по всему современный Cortex-M3 вполне его потянет по ресурсам (памяти и быстродействию). Попробуйте погуглить: СИНТЕЗАТОР РУССКОЙ РЕЧИ "ФОНЕМАФОН" Если интересно, приаттачиваю сюда доку от него:
README.ZIP ( 10.25 килобайт )
Кол-во скачиваний: 69
|
|
|
|
|
Jan 12 2014, 09:56
|

Ally
     
Группа: Модераторы
Сообщений: 6 232
Регистрация: 19-01-05
Пользователь №: 2 050

|
Цитата(jcxz @ Jan 12 2014, 11:27)  Когда-то (во времена ДОС) на PC писал читалку книжек.  Качество звучания было вполне приемлемым для прослушивания книжек. Его можно было ещё существенно повысить если расставить ударения в словах. А вам память случайно не изменяет? Даже сейчас движки текст-в-речь очень часто дают нечто неразборчивое. Без специальной разметки текста специально для проговаривания получается очень посредственное качество различимости некоторых выражений. Т.е. сложность даже не в воспроизведении, а в специальной разметке текста. Кто ее будет специально делать для встраиваемого устройства? Фича воспроизведения голосом произвольных текстов очень рискованная с точки зрения юзабельности и лучше ее опробывать базируясь на WEB сервисах. А их кстати теперь очень много. Например - https://www.vocalware.com/ Время отклика вполне приемлемое. Фразы, как понимаю, можно конвертировать и не в реальном времени. Тут надо спросить сразу откуда может появляться сам динамический текст в приложении на Cortex-M4? Скорее всего весь текст уже известен на этапе компиляции.
|
|
|
|
|
Jan 12 2014, 10:36
|
Гуру
     
Группа: Свой
Сообщений: 5 228
Регистрация: 3-07-08
Из: Омск
Пользователь №: 38 713

|
Цитата(AlexandrY @ Jan 12 2014, 15:56)  А вам память случайно не изменяет? Даже сейчас движки текст-в-речь очень часто дают нечто неразборчивое. Без специальной разметки текста специально для проговаривания получается очень посредственное качество различимости некоторых выражений. Случайно - нет. В сети можно найти образцы звучания Фонемафона. Качество конечно пониже чем у современных, но книжки можно слушать вполне разборчиво. И про ударения я писал. Цитата(AlexandrY @ Jan 12 2014, 15:56)  Тут надо спросить сразу откуда может появляться сам динамический текст в приложении на Cortex-M4? Скорее всего весь текст уже известен на этапе компиляции. И что? Размер такого текста на порядки меньше чем его представления в аудиоданных. А для встраиваемых систем это критично. А может быть и динамический, если устройство принимает некие данные извне и их озвучивает.
|
|
|
|
|
Jan 12 2014, 16:55
|
Гуру
     
Группа: Участник
Сообщений: 2 219
Регистрация: 16-08-12
Из: Киров
Пользователь №: 73 143

|
Цитата(AlexandrY @ Jan 12 2014, 13:56)  Фича воспроизведения голосом произвольных текстов очень рискованная с точки зрения юзабельности и лучше ее опробывать базируясь на WEB сервисах. А их кстати теперь очень много. Например - https://www.vocalware.com/ Время отклика вполне приемлемое. Фразы, как понимаю, можно конвертировать и не в реальном времени. Тут надо спросить сразу откуда может появляться сам динамический текст в приложении на Cortex-M4? Скорее всего весь текст уже известен на этапе компиляции. Возможно, но как правило нужно качественное подключение к инету, а в моем случае рассматривается полностью автономное устройство. Да, как правило фразы уже заготовлены, но есть числа, которые меняются, поэтому и написал, что достаточно числительных. Да при этом существует ограничение, но все-таки у меня нет задачи делать читалку книг, а просто голосовое меню - так что пойдет, зато голос будет как у человека, а не нечто похожее на голос Ну и в третьих - голос планируется передавать через телефонную или сотовую сеть, и это еще добавляет вклад в неразборчивость голоса, так что какой-либо фонемный синтезатор его ухудшит еще сильнее...
|
|
|
|
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0
|
|
|