Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: синтез голоса
Форум разработчиков электроники ELECTRONIX.ru > Cистемный уровень проектирования > Математика и Физика
forever_student
Реально ли - синтезатор речи (русский язык) на процессоре ~ 100 -150 MIPS и с базой в пределах 8 Мб ?
По форуму искал - по синтезу речи ничего не нашел. В Google - в основном для PC и размеры базы неподъемные
В общем, интересует мнение специалистов.
forever_student
Цитата(Methane @ Jan 19 2011, 14:31) *

Спасибо, но я же написал, что в Google искал. Про Festival не смог найти системные требования.
Зато на одном из форумов нашел базу для русского языка >200 МБ. Потому и написал "неподъемные".
P.S. Интересует мнение специалистов - тех, кто сам этим занимался (или хотя бы рядом стоял rolleyes.gif )
=SSN=
Цитата(forever_student @ Jan 19 2011, 13:24) *
Реально ли - синтезатор речи (русский язык) на процессоре ~ 100 -150 MIPS и с базой в пределах 8 Мб ?

Для стандартов сжатия речи G.723.1, G.729.A одна секунда речи занимает в памяти от 670 до 1000 байт.
В обьёме 8 Мб может хранится от 4000 до 12000 слов. Если для Вашего синтезатора речи этого словаря достаточно, то реально.
forever_student
Цитата(=SSN= @ Jan 19 2011, 15:28) *
...Если для Вашего синтезатора речи этого словаря достаточно, то реально.

Спасибо, в сторону G.723.1 и G.729.A посмотреть не догадался. Качество, конечно, нужно повыше
(насколько я понял, Festival и др. используют 22050Гц/16 бит), но уже понятно, что 100MIPS хватит
с большим запасом.
А вот что касается словаря... Нужен именно СИНТЕЗАТОР, т.е. текст заранее неизвестен, поэтому
ориентироваться на словарь, наверное, неправильно.
HARMHARM
4000 слов - это больше словарного запаса школьника. Но любой текст так воспроизвести, конечно, не получится.
Methane
Цитата(HARMHARM @ Jan 19 2011, 15:34) *
4000 слов - это больше словарного запаса школьника. Но любой текст так воспроизвести, конечно, не получится.

Почему-то был уверен что там не по словам синтез голоса идет.
PS. Купил ебуку, там говорилка есть.
forever_student
Цитата(Methane @ Jan 19 2011, 16:37) *
Почему-то был уверен что там не по словам синтез голоса идет.
PS. Купил ебуку, там говорилка есть.

В общем да, не по словам (по ма-а-а-аленьким кусочкам слов - которые и составляют базу)
Если не секрет, что за процессор в ебуке, качество говорилки?
Methane
Цитата(forever_student @ Jan 19 2011, 18:33) *
В общем да, не по словам (по ма-а-а-аленьким кусочкам слов - которые и составляют базу)
Если не секрет, что за процессор в ебуке, качество говорилки?

Качество весьма и весьма на уровне. Процессор, сами смотрите, "покетбук 902".
forever_student
Цитата(Methane @ Jan 19 2011, 20:03) *
Качество весьма и весьма на уровне. Процессор, сами смотрите, "покетбук 902".

Посмотрел - процессор Samsung 533 МГц и 860 МБ занятой flash-памяти (если не ошибаюсь - как раз Festival и сильно подозреваю, что немалую часть из 860 МБ занимает база.
Methane
Цитата(forever_student @ Jan 19 2011, 19:25) *
Посмотрел - процессор Samsung 533 МГц и 860 МБ занятой flash-памяти (если не ошибаюсь - как раз Festival и сильно подозреваю, что немалую часть из 860 МБ занимает база.

Русский женский - 82, немецкий - 101, французкий и английский по 86.
forever_student
Цитата(Methane @ Jan 19 2011, 20:32) *
Русский женский - 82, немецкий - 101, французкий и английский по 86.

Спасибо, с Festival-ем прояснилось.
Но, все-таки мнение специалистов, реально или нет?
Methane
Цитата(forever_student @ Jan 19 2011, 19:54) *
Спасибо, с Festival-ем прояснилось.
Но, все-таки мнение специалистов, реально или нет?

Скачайте фестиваль, и запустите его через профайлер. Сами специалистом станете.
forever_student
Цитата(Methane @ Jan 19 2011, 20:58) *
Скачайте фестиваль, и запустите его через профайлер. Сами специалистом станете.

Сейчас меня интересует возможно ли сделать синтезатор русской речи на процессоре 100-150 MIPS, и при этом весящий ~ 8 МБ. Представляя объем базы для Festival, я понимаю, что его движок мне не подходит. Поэтому и нет смысла устанавливать. Поэтому и мнение специалистов - кто-то наверняка свой движок делал (и, соответственно, базу). Может кто-то вообще другой принцип использовал. Сама программа не нужна, интересует ВОЗМОЖНОСТЬ создания таковой.
sherr
Цитата(forever_student @ Jan 19 2011, 21:15) *
Сейчас меня интересует возможно ли сделать синтезатор русской речи на процессоре 100-150 MIPS, и при этом весящий ~ 8 МБ. Представляя объем базы для Festival, я понимаю, что его движок мне не подходит. Поэтому и нет смысла устанавливать. Поэтому и мнение специалистов - кто-то наверняка свой движок делал (и, соответственно, базу). Может кто-то вообще другой принцип использовал. Сама программа не нужна, интересует ВОЗМОЖНОСТЬ создания таковой.

А можно вклиниться в разговор - мне предположим не жалко 100 мб на флешке - насколько сложно портировать Фестиваль (рус) на
плату на базе АТmel AT91SAM9G45 (arm926) + звуковой чип ALC203 (АС97), стоит Линукс, библиотеки ALSA - наличествуют .
Это - подъемно?, может кто-то уже делал что-то подобное ?
Methane
Цитата(forever_student @ Jan 19 2011, 20:15) *
Сейчас меня интересует возможно ли сделать синтезатор русской речи на процессоре 100-150 MIPS, и при этом весящий ~ 8 МБ. Представляя объем базы для Festival, я понимаю, что его движок мне не подходит. Поэтому и нет смысла устанавливать. Поэтому и мнение специалистов - кто-то наверняка свой движок делал (и, соответственно, базу). Может кто-то вообще другой принцип использовал. Сама программа не нужна, интересует ВОЗМОЖНОСТЬ создания таковой.


Есть возможность. когда-то под досом была говорилка. Говорила через писи-спикер. Разобрать что говорит можно было.
forever_student
Цитата(sherr @ Jan 19 2011, 21:41) *
...мне предположим не жалко 100 мб на флешке...

Открытая база для Festival (та, что я видел) >200 МБ. Сложность портирования пока не представляю.
bb-offtopic.gif
На мой взгляд тема очень актуальная - поэтому легкое удивление по поводу отсутствия
(по крайней мере, я не нашел) ветки на Electronix-е sad.gif

Цитата(Methane @ Jan 19 2011, 21:42) *
...Разобрать что говорит можно было...

это все-таки не тот уровень качества
sherr
Присоединяюсь, очень нужен открытый проект говорилки для embedded (еще бы хотя б с примитивной распознавалкой голосовых команд-
так совсем хорошо ) - но универсальный, не заточенный под DSPIC как у Microchip.
Кстати - коммерческий Digalo2000rus - через который я уже лет 8 слушаю книжки имеет размер инсталлятора 8,6 мб (+ 900 к MS Speech
API) - так что 8 мб наверное реально, голос терпимого качества (меня лично вполне устраивает), голоса от самого MS (есть и русский)
еще раза в три меньше (но качество мерзопакостное).
В общем - тоже хочу 1111493779.gif
forever_student
Цитата(sherr @ Jan 19 2011, 22:09) *
...еще бы хотя б с примитивной распознавалкой голосовых команд...

Сильно подозреваю, что это совершенно другая задача.
DRUID3
Цитата(forever_student @ Jan 19 2011, 19:54) *
Но, все-таки мнение специалистов, реально или нет?

Реально...
forever_student
Цитата(DRUID3 @ Jan 30 2011, 13:33) *
Реально...

Спасибо. А на чем основывается уверенность?

P.S. Не думал, что тема настолько неинтересна, что ей никто (почти никто) не занимался.
Methane
Цитата(forever_student @ Jan 30 2011, 13:46) *
Спасибо. А на чем основывается уверенность?

P.S. Не думал, что тема настолько неинтересна, что ей никто (почти никто) не занимался.

http://www.cstr.ed.ac.uk/projects/festival/download.html
DRUID3
Цитата(forever_student @ Jan 30 2011, 13:46) *
Спасибо. А на чем основывается уверенность?

На реальном практическом опыте...
forever_student
Цитата(Methane @ Jan 30 2011, 14:53) *
...http://www.cstr.ed.ac.uk/projects/festival/download.html[/url]

Вроде как Festival уже обсуждали, и до 8МБ базы там о-очень далеко

Цитата(DRUID3 @ Jan 30 2011, 15:42) *
На реальном практическом опыте...

Будем надеяться, что и у меня вскоре появится положительный практический опыт.
Methane
Цитата(forever_student @ Jan 30 2011, 18:50) *
Вроде как Festival уже обсуждали, и до 8МБ базы там о-очень далеко

Блин. Вы способ или повод ищите?
forever_student
Цитата(Methane @ Jan 30 2011, 20:01) *
Блин. Вы способ или повод ищите?

Дубль 2:
Реально ли - синтезатор речи (русский язык) на процессоре ~ 100 -150 MIPS и с базой в пределах 8 Мб ?
...
В общем, интересует мнение специалистов.

Вот чего ищу.


Цитата(DRUID3 @ Jan 30 2011, 13:33) *
Реально...


Вот чего нашел. Этого достаточно, еще раз спасибо. Ушел думать и писАть.
Methane
Цитата(forever_student @ Jan 30 2011, 19:07) *
Дубль 2:
Реально ли - синтезатор речи (русский язык) на процессоре ~ 100 -150 MIPS и с базой в пределах 8 Мб ?


Да. Реально. Синтезатор работал на 286 компе о 16 мигагерцах, с винтом на 20 мегабайт. База влазила в ОЗУ. Как называлась прога, не помню.
Cvet-20
Здравствуйте,подскажите чем можно запрограммировать и какой прогой,вот этот микроконтроллер AT91SAM9G45?
timm
Цитата(forever_student @ Jan 19 2011, 21:54) *
Открытая база для Festival (та, что я видел) >200 МБ. Сложность портирования пока не представляю.

msu_ru_nsh_clunits?
Есть проще: msu_ru_nsh_cg, msu_ru_nsh_diphone
А ещё лучше - спросите у автора
http://forum.sources.ru/index.php?showforum=35
forever_student
Цитата(timm @ Feb 14 2011, 14:45) *

Спасибо за ссылку! a14.gif
Kluwert
Цитата(forever_student @ Jan 19 2011, 15:41) *
Нужен именно СИНТЕЗАТОР, т.е. текст заранее неизвестен, поэтому
ориентироваться на словарь, наверное, неправильно.

Если нужен ИМЕННО синтезатор, то здесь выход только один: так называемый "формантный синтезатор", которые часто использовались в доWinдовые времена. Он доходчиво описан в популярной книжке Кейтера "Компьютеры - синтезаторы речи" (я её еще в школе читал sm.gif. Берется база слогов (лучше, конечно, фонем, но это вряд ли возможно) далее эти слоги аналогично как в ЛПК-кодерах (тот же G.729 для примера) сегментируются на участки по признаку "гармоники-шум". Далее от озвученных участков берутся только частоты первых трех гармоник. На шумовых участках грубо оценивается спектр (по-сути тот же ЛПК (или АР, как кому нравиться) только с моделью очень низкого порядка). Эти данные и составляют базу. Размер её для русского языка будет смешным: что-то типа 20-30Кбайт. Ну и собственно дальше идет синтез слова по слогам. Если решать эту задачу совсем в лоб, то качество будет "упаси боже". Но, если с умом (имитировать коартикуляцию, переменную длительность слогов, оглушения и т.п.) - качество будет разумным, по-крайней мере, для каких-либо оповещателей.
forever_student
Цитата(Kluwert @ Feb 20 2011, 20:03) *
...Ну и собственно дальше идет синтез слова по слогам...

Если бы все так было просто - давно бы уже сделали синтезатор хорошего качества хотя бы для PC.
(Я прослушал примеры для Digalo, Festival, Alyona и т.д. Качество меня не устроило+геморрой со словарями и обучением - это нечто cranky.gif )

Цитата(Kluwert @ Feb 20 2011, 20:03) *
...качество будет разумным, по-крайней мере, для каких-либо оповещателей...

Хочется книжки слушать rolleyes.gif
P.S. За книжку спасибо - поищу обязательно
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Invision Power Board © 2001-2025 Invision Power Services, Inc.