реклама на сайте
подробности

 
 
3 страниц V   1 2 3 >  
Reply to this topicStart new topic
> синтез голоса
forever_student
сообщение Jan 19 2011, 10:24
Сообщение #1


Местный
***

Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180



Реально ли - синтезатор речи (русский язык) на процессоре ~ 100 -150 MIPS и с базой в пределах 8 Мб ?
По форуму искал - по синтезу речи ничего не нашел. В Google - в основном для PC и размеры базы неподъемные
В общем, интересует мнение специалистов.
Go to the top of the page
 
+Quote Post
Methane
сообщение Jan 19 2011, 11:31
Сообщение #2


Гуру
******

Группа: Свой
Сообщений: 3 615
Регистрация: 12-01-09
Из: США, Главное разведовательное управление
Пользователь №: 43 230



http://en.wikipedia.org/wiki/Festival_Spee...ynthesis_System
Go to the top of the page
 
+Quote Post
forever_student
сообщение Jan 19 2011, 11:59
Сообщение #3


Местный
***

Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180



Цитата(Methane @ Jan 19 2011, 14:31) *

Спасибо, но я же написал, что в Google искал. Про Festival не смог найти системные требования.
Зато на одном из форумов нашел базу для русского языка >200 МБ. Потому и написал "неподъемные".
P.S. Интересует мнение специалистов - тех, кто сам этим занимался (или хотя бы рядом стоял rolleyes.gif )
Go to the top of the page
 
+Quote Post
=SSN=
сообщение Jan 19 2011, 12:28
Сообщение #4


Частый гость
**

Группа: Участник
Сообщений: 161
Регистрация: 9-09-08
Из: РФ
Пользователь №: 40 076



Цитата(forever_student @ Jan 19 2011, 13:24) *
Реально ли - синтезатор речи (русский язык) на процессоре ~ 100 -150 MIPS и с базой в пределах 8 Мб ?

Для стандартов сжатия речи G.723.1, G.729.A одна секунда речи занимает в памяти от 670 до 1000 байт.
В обьёме 8 Мб может хранится от 4000 до 12000 слов. Если для Вашего синтезатора речи этого словаря достаточно, то реально.
Go to the top of the page
 
+Quote Post
forever_student
сообщение Jan 19 2011, 12:41
Сообщение #5


Местный
***

Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180



Цитата(=SSN= @ Jan 19 2011, 15:28) *
...Если для Вашего синтезатора речи этого словаря достаточно, то реально.

Спасибо, в сторону G.723.1 и G.729.A посмотреть не догадался. Качество, конечно, нужно повыше
(насколько я понял, Festival и др. используют 22050Гц/16 бит), но уже понятно, что 100MIPS хватит
с большим запасом.
А вот что касается словаря... Нужен именно СИНТЕЗАТОР, т.е. текст заранее неизвестен, поэтому
ориентироваться на словарь, наверное, неправильно.
Go to the top of the page
 
+Quote Post
HARMHARM
сообщение Jan 19 2011, 13:34
Сообщение #6


читатель даташитов
****

Группа: Свой
Сообщений: 853
Регистрация: 5-11-06
Из: Днепропетровск
Пользователь №: 21 999



4000 слов - это больше словарного запаса школьника. Но любой текст так воспроизвести, конечно, не получится.
Go to the top of the page
 
+Quote Post
Methane
сообщение Jan 19 2011, 13:37
Сообщение #7


Гуру
******

Группа: Свой
Сообщений: 3 615
Регистрация: 12-01-09
Из: США, Главное разведовательное управление
Пользователь №: 43 230



Цитата(HARMHARM @ Jan 19 2011, 15:34) *
4000 слов - это больше словарного запаса школьника. Но любой текст так воспроизвести, конечно, не получится.

Почему-то был уверен что там не по словам синтез голоса идет.
PS. Купил ебуку, там говорилка есть.
Go to the top of the page
 
+Quote Post
forever_student
сообщение Jan 19 2011, 16:33
Сообщение #8


Местный
***

Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180



Цитата(Methane @ Jan 19 2011, 16:37) *
Почему-то был уверен что там не по словам синтез голоса идет.
PS. Купил ебуку, там говорилка есть.

В общем да, не по словам (по ма-а-а-аленьким кусочкам слов - которые и составляют базу)
Если не секрет, что за процессор в ебуке, качество говорилки?
Go to the top of the page
 
+Quote Post
Methane
сообщение Jan 19 2011, 17:03
Сообщение #9


Гуру
******

Группа: Свой
Сообщений: 3 615
Регистрация: 12-01-09
Из: США, Главное разведовательное управление
Пользователь №: 43 230



Цитата(forever_student @ Jan 19 2011, 18:33) *
В общем да, не по словам (по ма-а-а-аленьким кусочкам слов - которые и составляют базу)
Если не секрет, что за процессор в ебуке, качество говорилки?

Качество весьма и весьма на уровне. Процессор, сами смотрите, "покетбук 902".
Go to the top of the page
 
+Quote Post
forever_student
сообщение Jan 19 2011, 17:25
Сообщение #10


Местный
***

Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180



Цитата(Methane @ Jan 19 2011, 20:03) *
Качество весьма и весьма на уровне. Процессор, сами смотрите, "покетбук 902".

Посмотрел - процессор Samsung 533 МГц и 860 МБ занятой flash-памяти (если не ошибаюсь - как раз Festival и сильно подозреваю, что немалую часть из 860 МБ занимает база.
Go to the top of the page
 
+Quote Post
Methane
сообщение Jan 19 2011, 17:32
Сообщение #11


Гуру
******

Группа: Свой
Сообщений: 3 615
Регистрация: 12-01-09
Из: США, Главное разведовательное управление
Пользователь №: 43 230



Цитата(forever_student @ Jan 19 2011, 19:25) *
Посмотрел - процессор Samsung 533 МГц и 860 МБ занятой flash-памяти (если не ошибаюсь - как раз Festival и сильно подозреваю, что немалую часть из 860 МБ занимает база.

Русский женский - 82, немецкий - 101, французкий и английский по 86.
Go to the top of the page
 
+Quote Post
forever_student
сообщение Jan 19 2011, 17:54
Сообщение #12


Местный
***

Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180



Цитата(Methane @ Jan 19 2011, 20:32) *
Русский женский - 82, немецкий - 101, французкий и английский по 86.

Спасибо, с Festival-ем прояснилось.
Но, все-таки мнение специалистов, реально или нет?
Go to the top of the page
 
+Quote Post
Methane
сообщение Jan 19 2011, 17:58
Сообщение #13


Гуру
******

Группа: Свой
Сообщений: 3 615
Регистрация: 12-01-09
Из: США, Главное разведовательное управление
Пользователь №: 43 230



Цитата(forever_student @ Jan 19 2011, 19:54) *
Спасибо, с Festival-ем прояснилось.
Но, все-таки мнение специалистов, реально или нет?

Скачайте фестиваль, и запустите его через профайлер. Сами специалистом станете.
Go to the top of the page
 
+Quote Post
forever_student
сообщение Jan 19 2011, 18:15
Сообщение #14


Местный
***

Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180



Цитата(Methane @ Jan 19 2011, 20:58) *
Скачайте фестиваль, и запустите его через профайлер. Сами специалистом станете.

Сейчас меня интересует возможно ли сделать синтезатор русской речи на процессоре 100-150 MIPS, и при этом весящий ~ 8 МБ. Представляя объем базы для Festival, я понимаю, что его движок мне не подходит. Поэтому и нет смысла устанавливать. Поэтому и мнение специалистов - кто-то наверняка свой движок делал (и, соответственно, базу). Может кто-то вообще другой принцип использовал. Сама программа не нужна, интересует ВОЗМОЖНОСТЬ создания таковой.
Go to the top of the page
 
+Quote Post
sherr
сообщение Jan 19 2011, 18:41
Сообщение #15


Местный
***

Группа: Участник
Сообщений: 257
Регистрация: 10-06-06
Из: Ставрополь
Пользователь №: 17 955



Цитата(forever_student @ Jan 19 2011, 21:15) *
Сейчас меня интересует возможно ли сделать синтезатор русской речи на процессоре 100-150 MIPS, и при этом весящий ~ 8 МБ. Представляя объем базы для Festival, я понимаю, что его движок мне не подходит. Поэтому и нет смысла устанавливать. Поэтому и мнение специалистов - кто-то наверняка свой движок делал (и, соответственно, базу). Может кто-то вообще другой принцип использовал. Сама программа не нужна, интересует ВОЗМОЖНОСТЬ создания таковой.

А можно вклиниться в разговор - мне предположим не жалко 100 мб на флешке - насколько сложно портировать Фестиваль (рус) на
плату на базе АТmel AT91SAM9G45 (arm926) + звуковой чип ALC203 (АС97), стоит Линукс, библиотеки ALSA - наличествуют .
Это - подъемно?, может кто-то уже делал что-то подобное ?

Сообщение отредактировал sherr - Jan 19 2011, 18:43
Go to the top of the page
 
+Quote Post
Methane
сообщение Jan 19 2011, 18:42
Сообщение #16


Гуру
******

Группа: Свой
Сообщений: 3 615
Регистрация: 12-01-09
Из: США, Главное разведовательное управление
Пользователь №: 43 230



Цитата(forever_student @ Jan 19 2011, 20:15) *
Сейчас меня интересует возможно ли сделать синтезатор русской речи на процессоре 100-150 MIPS, и при этом весящий ~ 8 МБ. Представляя объем базы для Festival, я понимаю, что его движок мне не подходит. Поэтому и нет смысла устанавливать. Поэтому и мнение специалистов - кто-то наверняка свой движок делал (и, соответственно, базу). Может кто-то вообще другой принцип использовал. Сама программа не нужна, интересует ВОЗМОЖНОСТЬ создания таковой.


Есть возможность. когда-то под досом была говорилка. Говорила через писи-спикер. Разобрать что говорит можно было.
Go to the top of the page
 
+Quote Post
forever_student
сообщение Jan 19 2011, 18:54
Сообщение #17


Местный
***

Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180



Цитата(sherr @ Jan 19 2011, 21:41) *
...мне предположим не жалко 100 мб на флешке...

Открытая база для Festival (та, что я видел) >200 МБ. Сложность портирования пока не представляю.
bb-offtopic.gif
На мой взгляд тема очень актуальная - поэтому легкое удивление по поводу отсутствия
(по крайней мере, я не нашел) ветки на Electronix-е sad.gif

Цитата(Methane @ Jan 19 2011, 21:42) *
...Разобрать что говорит можно было...

это все-таки не тот уровень качества
Go to the top of the page
 
+Quote Post
sherr
сообщение Jan 19 2011, 19:09
Сообщение #18


Местный
***

Группа: Участник
Сообщений: 257
Регистрация: 10-06-06
Из: Ставрополь
Пользователь №: 17 955



Присоединяюсь, очень нужен открытый проект говорилки для embedded (еще бы хотя б с примитивной распознавалкой голосовых команд-
так совсем хорошо ) - но универсальный, не заточенный под DSPIC как у Microchip.
Кстати - коммерческий Digalo2000rus - через который я уже лет 8 слушаю книжки имеет размер инсталлятора 8,6 мб (+ 900 к MS Speech
API) - так что 8 мб наверное реально, голос терпимого качества (меня лично вполне устраивает), голоса от самого MS (есть и русский)
еще раза в три меньше (но качество мерзопакостное).
В общем - тоже хочу 1111493779.gif
Go to the top of the page
 
+Quote Post
forever_student
сообщение Jan 19 2011, 19:33
Сообщение #19


Местный
***

Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180



Цитата(sherr @ Jan 19 2011, 22:09) *
...еще бы хотя б с примитивной распознавалкой голосовых команд...

Сильно подозреваю, что это совершенно другая задача.
Go to the top of the page
 
+Quote Post
DRUID3
сообщение Jan 30 2011, 10:33
Сообщение #20


山伏
*****

Группа: Свой
Сообщений: 1 827
Регистрация: 3-08-06
Из: Kyyiv
Пользователь №: 19 294



Цитата(forever_student @ Jan 19 2011, 19:54) *
Но, все-таки мнение специалистов, реально или нет?

Реально...


--------------------
Нас помнят пока мы мешаем другим...
//--------------------------------------------------------
Хороший блатной - мертвый...
//--------------------------------------------------------
Нет старик, это те дроиды которых я ищу...
Go to the top of the page
 
+Quote Post
forever_student
сообщение Jan 30 2011, 11:46
Сообщение #21


Местный
***

Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180



Цитата(DRUID3 @ Jan 30 2011, 13:33) *
Реально...

Спасибо. А на чем основывается уверенность?

P.S. Не думал, что тема настолько неинтересна, что ей никто (почти никто) не занимался.
Go to the top of the page
 
+Quote Post
Methane
сообщение Jan 30 2011, 11:53
Сообщение #22


Гуру
******

Группа: Свой
Сообщений: 3 615
Регистрация: 12-01-09
Из: США, Главное разведовательное управление
Пользователь №: 43 230



Цитата(forever_student @ Jan 30 2011, 13:46) *
Спасибо. А на чем основывается уверенность?

P.S. Не думал, что тема настолько неинтересна, что ей никто (почти никто) не занимался.

http://www.cstr.ed.ac.uk/projects/festival/download.html
Go to the top of the page
 
+Quote Post
DRUID3
сообщение Jan 30 2011, 12:42
Сообщение #23


山伏
*****

Группа: Свой
Сообщений: 1 827
Регистрация: 3-08-06
Из: Kyyiv
Пользователь №: 19 294



Цитата(forever_student @ Jan 30 2011, 13:46) *
Спасибо. А на чем основывается уверенность?

На реальном практическом опыте...


--------------------
Нас помнят пока мы мешаем другим...
//--------------------------------------------------------
Хороший блатной - мертвый...
//--------------------------------------------------------
Нет старик, это те дроиды которых я ищу...
Go to the top of the page
 
+Quote Post
forever_student
сообщение Jan 30 2011, 16:50
Сообщение #24


Местный
***

Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180



Цитата(Methane @ Jan 30 2011, 14:53) *
...http://www.cstr.ed.ac.uk/projects/festival/download.html[/url]

Вроде как Festival уже обсуждали, и до 8МБ базы там о-очень далеко

Цитата(DRUID3 @ Jan 30 2011, 15:42) *
На реальном практическом опыте...

Будем надеяться, что и у меня вскоре появится положительный практический опыт.
Go to the top of the page
 
+Quote Post
Methane
сообщение Jan 30 2011, 17:01
Сообщение #25


Гуру
******

Группа: Свой
Сообщений: 3 615
Регистрация: 12-01-09
Из: США, Главное разведовательное управление
Пользователь №: 43 230



Цитата(forever_student @ Jan 30 2011, 18:50) *
Вроде как Festival уже обсуждали, и до 8МБ базы там о-очень далеко

Блин. Вы способ или повод ищите?
Go to the top of the page
 
+Quote Post
forever_student
сообщение Jan 30 2011, 17:07
Сообщение #26


Местный
***

Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180



Цитата(Methane @ Jan 30 2011, 20:01) *
Блин. Вы способ или повод ищите?

Дубль 2:
Реально ли - синтезатор речи (русский язык) на процессоре ~ 100 -150 MIPS и с базой в пределах 8 Мб ?
...
В общем, интересует мнение специалистов.

Вот чего ищу.


Цитата(DRUID3 @ Jan 30 2011, 13:33) *
Реально...


Вот чего нашел. Этого достаточно, еще раз спасибо. Ушел думать и писАть.
Go to the top of the page
 
+Quote Post
Methane
сообщение Jan 30 2011, 17:16
Сообщение #27


Гуру
******

Группа: Свой
Сообщений: 3 615
Регистрация: 12-01-09
Из: США, Главное разведовательное управление
Пользователь №: 43 230



Цитата(forever_student @ Jan 30 2011, 19:07) *
Дубль 2:
Реально ли - синтезатор речи (русский язык) на процессоре ~ 100 -150 MIPS и с базой в пределах 8 Мб ?


Да. Реально. Синтезатор работал на 286 компе о 16 мигагерцах, с винтом на 20 мегабайт. База влазила в ОЗУ. Как называлась прога, не помню.
Go to the top of the page
 
+Quote Post
Cvet-20
сообщение Feb 10 2011, 12:47
Сообщение #28





Группа: Новичок
Сообщений: 5
Регистрация: 24-12-10
Из: Новосибирск
Пользователь №: 61 848



Здравствуйте,подскажите чем можно запрограммировать и какой прогой,вот этот микроконтроллер AT91SAM9G45?
Go to the top of the page
 
+Quote Post
timm
сообщение Feb 14 2011, 11:45
Сообщение #29


Участник
*

Группа: Участник
Сообщений: 28
Регистрация: 13-03-09
Пользователь №: 46 049



Цитата(forever_student @ Jan 19 2011, 21:54) *
Открытая база для Festival (та, что я видел) >200 МБ. Сложность портирования пока не представляю.

msu_ru_nsh_clunits?
Есть проще: msu_ru_nsh_cg, msu_ru_nsh_diphone
А ещё лучше - спросите у автора
http://forum.sources.ru/index.php?showforum=35
Go to the top of the page
 
+Quote Post
forever_student
сообщение Feb 17 2011, 19:59
Сообщение #30


Местный
***

Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180



Цитата(timm @ Feb 14 2011, 14:45) *

Спасибо за ссылку! a14.gif
Go to the top of the page
 
+Quote Post
Kluwert
сообщение Feb 20 2011, 17:03
Сообщение #31


Местный
***

Группа: Участник
Сообщений: 239
Регистрация: 15-11-09
Из: Санкт-Петербург
Пользователь №: 53 639



Цитата(forever_student @ Jan 19 2011, 15:41) *
Нужен именно СИНТЕЗАТОР, т.е. текст заранее неизвестен, поэтому
ориентироваться на словарь, наверное, неправильно.

Если нужен ИМЕННО синтезатор, то здесь выход только один: так называемый "формантный синтезатор", которые часто использовались в доWinдовые времена. Он доходчиво описан в популярной книжке Кейтера "Компьютеры - синтезаторы речи" (я её еще в школе читал sm.gif. Берется база слогов (лучше, конечно, фонем, но это вряд ли возможно) далее эти слоги аналогично как в ЛПК-кодерах (тот же G.729 для примера) сегментируются на участки по признаку "гармоники-шум". Далее от озвученных участков берутся только частоты первых трех гармоник. На шумовых участках грубо оценивается спектр (по-сути тот же ЛПК (или АР, как кому нравиться) только с моделью очень низкого порядка). Эти данные и составляют базу. Размер её для русского языка будет смешным: что-то типа 20-30Кбайт. Ну и собственно дальше идет синтез слова по слогам. Если решать эту задачу совсем в лоб, то качество будет "упаси боже". Но, если с умом (имитировать коартикуляцию, переменную длительность слогов, оглушения и т.п.) - качество будет разумным, по-крайней мере, для каких-либо оповещателей.
Go to the top of the page
 
+Quote Post
forever_student
сообщение Feb 20 2011, 19:08
Сообщение #32


Местный
***

Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180



Цитата(Kluwert @ Feb 20 2011, 20:03) *
...Ну и собственно дальше идет синтез слова по слогам...

Если бы все так было просто - давно бы уже сделали синтезатор хорошего качества хотя бы для PC.
(Я прослушал примеры для Digalo, Festival, Alyona и т.д. Качество меня не устроило+геморрой со словарями и обучением - это нечто cranky.gif )

Цитата(Kluwert @ Feb 20 2011, 20:03) *
...качество будет разумным, по-крайней мере, для каких-либо оповещателей...

Хочется книжки слушать rolleyes.gif
P.S. За книжку спасибо - поищу обязательно

Сообщение отредактировал forever_student - Feb 20 2011, 19:09
Go to the top of the page
 
+Quote Post

3 страниц V   1 2 3 >
Reply to this topicStart new topic
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 


RSS Текстовая версия Сейчас: 5th September 2025 - 00:10
Рейтинг@Mail.ru


Страница сгенерированна за 0.02622 секунд с 7
ELECTRONIX ©2004-2016