Форум разработчиков электроники ELECTRONIX.ru

forever_student

Jan 19 2011, 10:24

Реально ли - синтезатор речи (русский язык) на процессоре ~ 100 -150 MIPS и с базой в пределах 8 Мб ?
По форуму искал - по синтезу речи ничего не нашел. В Google - в основном для PC и размеры базы неподъемные
В общем, интересует мнение специалистов.

Methane

Jan 19 2011, 11:31

http://en.wikipedia.org/wiki/Festival_Spee...ynthesis_System

forever_student

Jan 19 2011, 11:59

Цитата(Methane @ Jan 19 2011, 14:31)

http://en.wikipedia.org/wiki/Festival_Spee...ynthesis_System

Спасибо, но я же написал, что в Google искал. Про Festival не смог найти системные требования.
Зато на одном из форумов нашел базу для русского языка >200 МБ. Потому и написал "неподъемные".
P.S. Интересует мнение специалистов - тех, кто сам этим занимался (или хотя бы рядом стоял

)

=SSN=

Jan 19 2011, 12:28

Цитата(forever_student @ Jan 19 2011, 13:24)

Реально ли - синтезатор речи (русский язык) на процессоре ~ 100 -150 MIPS и с базой в пределах 8 Мб ?

Для стандартов сжатия речи G.723.1, G.729.A одна секунда речи занимает в памяти от 670 до 1000 байт.
В обьёме 8 Мб может хранится от 4000 до 12000 слов. Если для Вашего синтезатора речи этого словаря достаточно, то реально.

forever_student

Jan 19 2011, 12:41

Цитата(=SSN= @ Jan 19 2011, 15:28)

...Если для Вашего синтезатора речи этого словаря достаточно, то реально.

Спасибо, в сторону G.723.1 и G.729.A посмотреть не догадался. Качество, конечно, нужно повыше
(насколько я понял, Festival и др. используют 22050Гц/16 бит), но уже понятно, что 100MIPS хватит
с большим запасом.
А вот что касается словаря... Нужен именно СИНТЕЗАТОР, т.е. текст заранее неизвестен, поэтому
ориентироваться на словарь, наверное, неправильно.

HARMHARM

Jan 19 2011, 13:34

4000 слов - это больше словарного запаса школьника. Но любой текст так воспроизвести, конечно, не получится.

Methane

Jan 19 2011, 13:37

Цитата(HARMHARM @ Jan 19 2011, 15:34)

4000 слов - это больше словарного запаса школьника. Но любой текст так воспроизвести, конечно, не получится.

Почему-то был уверен что там не по словам синтез голоса идет.
PS. Купил ебуку, там говорилка есть.

forever_student

Jan 19 2011, 16:33

Цитата(Methane @ Jan 19 2011, 16:37)

Почему-то был уверен что там не по словам синтез голоса идет.
PS. Купил ебуку, там говорилка есть.

В общем да, не по словам (по ма-а-а-аленьким кусочкам слов - которые и составляют базу)
Если не секрет, что за процессор в ебуке, качество говорилки?

Methane

Jan 19 2011, 17:03

Цитата(forever_student @ Jan 19 2011, 18:33)

В общем да, не по словам (по ма-а-а-аленьким кусочкам слов - которые и составляют базу)
Если не секрет, что за процессор в ебуке, качество говорилки?

Качество весьма и весьма на уровне. Процессор, сами смотрите, "покетбук 902".

forever_student

Jan 19 2011, 17:25

Цитата(Methane @ Jan 19 2011, 20:03)

Качество весьма и весьма на уровне. Процессор, сами смотрите, "покетбук 902".

Посмотрел - процессор Samsung 533 МГц и 860 МБ занятой flash-памяти (если не ошибаюсь - как раз Festival и сильно подозреваю, что немалую часть из 860 МБ занимает база.

Methane

Jan 19 2011, 17:32

Цитата(forever_student @ Jan 19 2011, 19:25)

Посмотрел - процессор Samsung 533 МГц и 860 МБ занятой flash-памяти (если не ошибаюсь - как раз Festival и сильно подозреваю, что немалую часть из 860 МБ занимает база.

Русский женский - 82, немецкий - 101, французкий и английский по 86.

forever_student

Jan 19 2011, 17:54

Цитата(Methane @ Jan 19 2011, 20:32)

Русский женский - 82, немецкий - 101, французкий и английский по 86.

Спасибо, с Festival-ем прояснилось.
Но, все-таки мнение специалистов, реально или нет?

Methane

Jan 19 2011, 17:58

Цитата(forever_student @ Jan 19 2011, 19:54)

Спасибо, с Festival-ем прояснилось.
Но, все-таки мнение специалистов, реально или нет?

Скачайте фестиваль, и запустите его через профайлер. Сами специалистом станете.

forever_student

Jan 19 2011, 18:15

Цитата(Methane @ Jan 19 2011, 20:58)

Скачайте фестиваль, и запустите его через профайлер. Сами специалистом станете.

Сейчас меня интересует возможно ли сделать синтезатор русской речи на процессоре 100-150 MIPS, и при этом весящий ~ 8 МБ. Представляя объем базы для Festival, я понимаю, что его движок мне не подходит. Поэтому и нет смысла устанавливать. Поэтому и мнение специалистов - кто-то наверняка свой движок делал (и, соответственно, базу). Может кто-то вообще другой принцип использовал. Сама программа не нужна, интересует ВОЗМОЖНОСТЬ создания таковой.

sherr

Jan 19 2011, 18:41

Цитата(forever_student @ Jan 19 2011, 21:15)

Сейчас меня интересует возможно ли сделать синтезатор русской речи на процессоре 100-150 MIPS, и при этом весящий ~ 8 МБ. Представляя объем базы для Festival, я понимаю, что его движок мне не подходит. Поэтому и нет смысла устанавливать. Поэтому и мнение специалистов - кто-то наверняка свой движок делал (и, соответственно, базу). Может кто-то вообще другой принцип использовал. Сама программа не нужна, интересует ВОЗМОЖНОСТЬ создания таковой.

А можно вклиниться в разговор - мне предположим не жалко 100 мб на флешке - насколько сложно портировать Фестиваль (рус) на
плату на базе АТmel AT91SAM9G45 (arm926) + звуковой чип ALC203 (АС97), стоит Линукс, библиотеки ALSA - наличествуют .
Это - подъемно?, может кто-то уже делал что-то подобное ?

Methane

Jan 19 2011, 18:42

Цитата(forever_student @ Jan 19 2011, 20:15)

Сейчас меня интересует возможно ли сделать синтезатор русской речи на процессоре 100-150 MIPS, и при этом весящий ~ 8 МБ. Представляя объем базы для Festival, я понимаю, что его движок мне не подходит. Поэтому и нет смысла устанавливать. Поэтому и мнение специалистов - кто-то наверняка свой движок делал (и, соответственно, базу). Может кто-то вообще другой принцип использовал. Сама программа не нужна, интересует ВОЗМОЖНОСТЬ создания таковой.

Есть возможность. когда-то под досом была говорилка. Говорила через писи-спикер. Разобрать что говорит можно было.

forever_student

Jan 19 2011, 18:54

Цитата(sherr @ Jan 19 2011, 21:41)

...мне предположим не жалко 100 мб на флешке...

Открытая база для Festival (та, что я видел) >200 МБ. Сложность портирования пока не представляю.

На мой взгляд тема очень актуальная - поэтому легкое удивление по поводу отсутствия
(по крайней мере, я не нашел) ветки на Electronix-е

Цитата(Methane @ Jan 19 2011, 21:42)

...Разобрать что говорит можно было...

это все-таки не тот уровень качества

sherr

Jan 19 2011, 19:09

Присоединяюсь, очень нужен открытый проект говорилки для embedded (еще бы хотя б с примитивной распознавалкой голосовых команд-
так совсем хорошо ) - но универсальный, не заточенный под DSPIC как у Microchip.
Кстати - коммерческий Digalo2000rus - через который я уже лет 8 слушаю книжки имеет размер инсталлятора 8,6 мб (+ 900 к MS Speech
API) - так что 8 мб наверное реально, голос терпимого качества (меня лично вполне устраивает), голоса от самого MS (есть и русский)
еще раза в три меньше (но качество мерзопакостное).
В общем - тоже хочу

forever_student

Jan 19 2011, 19:33

Цитата(sherr @ Jan 19 2011, 22:09)

...еще бы хотя б с примитивной распознавалкой голосовых команд...

Сильно подозреваю, что это совершенно другая задача.

DRUID3

Jan 30 2011, 10:33

Цитата(forever_student @ Jan 19 2011, 19:54)

Но, все-таки мнение специалистов, реально или нет?

Реально...

forever_student

Jan 30 2011, 11:46

Цитата(DRUID3 @ Jan 30 2011, 13:33)

Реально...

Спасибо. А на чем основывается уверенность?

P.S. Не думал, что тема настолько неинтересна, что ей никто (почти никто) не занимался.

Methane

Jan 30 2011, 11:53

Цитата(forever_student @ Jan 30 2011, 13:46)

Спасибо. А на чем основывается уверенность?

P.S. Не думал, что тема настолько неинтересна, что ей никто (почти никто) не занимался.

http://www.cstr.ed.ac.uk/projects/festival/download.html

DRUID3

Jan 30 2011, 12:42

Цитата(forever_student @ Jan 30 2011, 13:46)

Спасибо. А на чем основывается уверенность?

На реальном практическом опыте...

forever_student

Jan 30 2011, 16:50

Цитата(Methane @ Jan 30 2011, 14:53)

...http://www.cstr.ed.ac.uk/projects/festival/download.html[/url]

Вроде как Festival уже обсуждали, и до 8МБ базы там о-очень далеко

Цитата(DRUID3 @ Jan 30 2011, 15:42)

На реальном практическом опыте...

Будем надеяться, что и у меня вскоре появится положительный практический опыт.

Methane

Jan 30 2011, 17:01

Цитата(forever_student @ Jan 30 2011, 18:50)

Вроде как Festival уже обсуждали, и до 8МБ базы там о-очень далеко

Блин. Вы способ или повод ищите?

forever_student

Jan 30 2011, 17:07

Цитата(Methane @ Jan 30 2011, 20:01)

Блин. Вы способ или повод ищите?

Дубль 2:
Реально ли - синтезатор речи (русский язык) на процессоре ~ 100 -150 MIPS и с базой в пределах 8 Мб ?
...
В общем, интересует мнение специалистов.

Вот чего ищу.

Цитата(DRUID3 @ Jan 30 2011, 13:33)

Реально...

Вот чего нашел. Этого достаточно, еще раз спасибо. Ушел думать и писАть.

Methane

Jan 30 2011, 17:16

Цитата(forever_student @ Jan 30 2011, 19:07)

Дубль 2:
Реально ли - синтезатор речи (русский язык) на процессоре ~ 100 -150 MIPS и с базой в пределах 8 Мб ?

Да. Реально. Синтезатор работал на 286 компе о 16 мигагерцах, с винтом на 20 мегабайт. База влазила в ОЗУ. Как называлась прога, не помню.

Cvet-20

Feb 10 2011, 12:47

Здравствуйте,подскажите чем можно запрограммировать и какой прогой,вот этот микроконтроллер AT91SAM9G45?

timm

Feb 14 2011, 11:45

Цитата(forever_student @ Jan 19 2011, 21:54)

Открытая база для Festival (та, что я видел) >200 МБ. Сложность портирования пока не представляю.

msu_ru_nsh_clunits?
Есть проще: msu_ru_nsh_cg, msu_ru_nsh_diphone
А ещё лучше - спросите у автора
http://forum.sources.ru/index.php?showforum=35

forever_student

Feb 17 2011, 19:59

Цитата(timm @ Feb 14 2011, 14:45)

...http://forum.sources.ru/index.php?showforum=35

Спасибо за ссылку!

Kluwert

Feb 20 2011, 17:03

Цитата(forever_student @ Jan 19 2011, 15:41)

Нужен именно СИНТЕЗАТОР, т.е. текст заранее неизвестен, поэтому
ориентироваться на словарь, наверное, неправильно.

Если нужен ИМЕННО синтезатор, то здесь выход только один: так называемый "формантный синтезатор", которые часто использовались в доWinдовые времена. Он доходчиво описан в популярной книжке Кейтера "Компьютеры - синтезаторы речи" (я её еще в школе читал

. Берется база слогов (лучше, конечно, фонем, но это вряд ли возможно) далее эти слоги аналогично как в ЛПК-кодерах (тот же G.729 для примера) сегментируются на участки по признаку "гармоники-шум". Далее от озвученных участков берутся только частоты первых трех гармоник. На шумовых участках грубо оценивается спектр (по-сути тот же ЛПК (или АР, как кому нравиться) только с моделью очень низкого порядка). Эти данные и составляют базу. Размер её для русского языка будет смешным: что-то типа 20-30Кбайт. Ну и собственно дальше идет синтез слова по слогам. Если решать эту задачу совсем в лоб, то качество будет "упаси боже". Но, если с умом (имитировать коартикуляцию, переменную длительность слогов, оглушения и т.п.) - качество будет разумным, по-крайней мере, для каких-либо оповещателей.

forever_student

Feb 20 2011, 19:08

Цитата(Kluwert @ Feb 20 2011, 20:03)

...Ну и собственно дальше идет синтез слова по слогам...

Если бы все так было просто - давно бы уже сделали синтезатор хорошего качества хотя бы для PC.
(Я прослушал примеры для Digalo, Festival, Alyona и т.д. Качество меня не устроило+геморрой со словарями и обучением - это нечто

)

Цитата(Kluwert @ Feb 20 2011, 20:03)

...качество будет разумным, по-крайней мере, для каких-либо оповещателей...

Хочется книжки слушать

P.S. За книжку спасибо - поищу обязательно