|
синтез голоса |
|
|
|
Jan 19 2011, 11:59
|
Местный
  
Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180

|
Цитата(Methane @ Jan 19 2011, 14:31)  Спасибо, но я же написал, что в Google искал. Про Festival не смог найти системные требования. Зато на одном из форумов нашел базу для русского языка >200 МБ. Потому и написал "неподъемные". P.S. Интересует мнение специалистов - тех, кто сам этим занимался (или хотя бы рядом стоял  )
|
|
|
|
|
Jan 19 2011, 12:28
|
Частый гость
 
Группа: Участник
Сообщений: 161
Регистрация: 9-09-08
Из: РФ
Пользователь №: 40 076

|
Цитата(forever_student @ Jan 19 2011, 13:24)  Реально ли - синтезатор речи (русский язык) на процессоре ~ 100 -150 MIPS и с базой в пределах 8 Мб ? Для стандартов сжатия речи G.723.1, G.729.A одна секунда речи занимает в памяти от 670 до 1000 байт. В обьёме 8 Мб может хранится от 4000 до 12000 слов. Если для Вашего синтезатора речи этого словаря достаточно, то реально.
|
|
|
|
|
Jan 19 2011, 12:41
|
Местный
  
Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180

|
Цитата(=SSN= @ Jan 19 2011, 15:28)  ...Если для Вашего синтезатора речи этого словаря достаточно, то реально. Спасибо, в сторону G.723.1 и G.729.A посмотреть не догадался. Качество, конечно, нужно повыше (насколько я понял, Festival и др. используют 22050Гц/16 бит), но уже понятно, что 100MIPS хватит с большим запасом. А вот что касается словаря... Нужен именно СИНТЕЗАТОР, т.е. текст заранее неизвестен, поэтому ориентироваться на словарь, наверное, неправильно.
|
|
|
|
|
Jan 19 2011, 16:33
|
Местный
  
Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180

|
Цитата(Methane @ Jan 19 2011, 16:37)  Почему-то был уверен что там не по словам синтез голоса идет. PS. Купил ебуку, там говорилка есть. В общем да, не по словам (по ма-а-а-аленьким кусочкам слов - которые и составляют базу) Если не секрет, что за процессор в ебуке, качество говорилки?
|
|
|
|
|
Jan 19 2011, 17:25
|
Местный
  
Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180

|
Цитата(Methane @ Jan 19 2011, 20:03)  Качество весьма и весьма на уровне. Процессор, сами смотрите, "покетбук 902". Посмотрел - процессор Samsung 533 МГц и 860 МБ занятой flash-памяти (если не ошибаюсь - как раз Festival и сильно подозреваю, что немалую часть из 860 МБ занимает база.
|
|
|
|
|
Jan 19 2011, 17:54
|
Местный
  
Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180

|
Цитата(Methane @ Jan 19 2011, 20:32)  Русский женский - 82, немецкий - 101, французкий и английский по 86. Спасибо, с Festival-ем прояснилось. Но, все-таки мнение специалистов, реально или нет?
|
|
|
|
|
Jan 19 2011, 18:15
|
Местный
  
Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180

|
Цитата(Methane @ Jan 19 2011, 20:58)  Скачайте фестиваль, и запустите его через профайлер. Сами специалистом станете. Сейчас меня интересует возможно ли сделать синтезатор русской речи на процессоре 100-150 MIPS, и при этом весящий ~ 8 МБ. Представляя объем базы для Festival, я понимаю, что его движок мне не подходит. Поэтому и нет смысла устанавливать. Поэтому и мнение специалистов - кто-то наверняка свой движок делал (и, соответственно, базу). Может кто-то вообще другой принцип использовал. Сама программа не нужна, интересует ВОЗМОЖНОСТЬ создания таковой.
|
|
|
|
|
Jan 19 2011, 18:41
|
Местный
  
Группа: Участник
Сообщений: 257
Регистрация: 10-06-06
Из: Ставрополь
Пользователь №: 17 955

|
Цитата(forever_student @ Jan 19 2011, 21:15)  Сейчас меня интересует возможно ли сделать синтезатор русской речи на процессоре 100-150 MIPS, и при этом весящий ~ 8 МБ. Представляя объем базы для Festival, я понимаю, что его движок мне не подходит. Поэтому и нет смысла устанавливать. Поэтому и мнение специалистов - кто-то наверняка свой движок делал (и, соответственно, базу). Может кто-то вообще другой принцип использовал. Сама программа не нужна, интересует ВОЗМОЖНОСТЬ создания таковой. А можно вклиниться в разговор - мне предположим не жалко 100 мб на флешке - насколько сложно портировать Фестиваль (рус) на плату на базе АТmel AT91SAM9G45 (arm926) + звуковой чип ALC203 (АС97), стоит Линукс, библиотеки ALSA - наличествуют . Это - подъемно?, может кто-то уже делал что-то подобное ?
Сообщение отредактировал sherr - Jan 19 2011, 18:43
|
|
|
|
|
Jan 19 2011, 18:54
|
Местный
  
Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180

|
Цитата(sherr @ Jan 19 2011, 21:41)  ...мне предположим не жалко 100 мб на флешке... Открытая база для Festival (та, что я видел) >200 МБ. Сложность портирования пока не представляю. На мой взгляд тема очень актуальная - поэтому легкое удивление по поводу отсутствия (по крайней мере, я не нашел) ветки на Electronix-е  Цитата(Methane @ Jan 19 2011, 21:42)  ...Разобрать что говорит можно было... это все-таки не тот уровень качества
|
|
|
|
|
Jan 19 2011, 19:09
|
Местный
  
Группа: Участник
Сообщений: 257
Регистрация: 10-06-06
Из: Ставрополь
Пользователь №: 17 955

|
Присоединяюсь, очень нужен открытый проект говорилки для embedded (еще бы хотя б с примитивной распознавалкой голосовых команд- так совсем хорошо ) - но универсальный, не заточенный под DSPIC как у Microchip. Кстати - коммерческий Digalo2000rus - через который я уже лет 8 слушаю книжки имеет размер инсталлятора 8,6 мб (+ 900 к MS Speech API) - так что 8 мб наверное реально, голос терпимого качества (меня лично вполне устраивает), голоса от самого MS (есть и русский) еще раза в три меньше (но качество мерзопакостное). В общем - тоже хочу
|
|
|
|
|
Jan 19 2011, 19:33
|
Местный
  
Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180

|
Цитата(sherr @ Jan 19 2011, 22:09)  ...еще бы хотя б с примитивной распознавалкой голосовых команд... Сильно подозреваю, что это совершенно другая задача.
|
|
|
|
|
Jan 30 2011, 11:46
|
Местный
  
Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180

|
Цитата(DRUID3 @ Jan 30 2011, 13:33)  Реально... Спасибо. А на чем основывается уверенность? P.S. Не думал, что тема настолько неинтересна, что ей никто (почти никто) не занимался.
|
|
|
|
|
Jan 30 2011, 16:50
|
Местный
  
Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180

|
Цитата(Methane @ Jan 30 2011, 14:53)  ...http://www.cstr.ed.ac.uk/projects/festival/download.html[/url] Вроде как Festival уже обсуждали, и до 8МБ базы там о-очень далеко Цитата(DRUID3 @ Jan 30 2011, 15:42)  На реальном практическом опыте... Будем надеяться, что и у меня вскоре появится положительный практический опыт.
|
|
|
|
|
Jan 30 2011, 17:07
|
Местный
  
Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180

|
Цитата(Methane @ Jan 30 2011, 20:01)  Блин. Вы способ или повод ищите? Дубль 2: Реально ли - синтезатор речи (русский язык) на процессоре ~ 100 -150 MIPS и с базой в пределах 8 Мб ? ... В общем, интересует мнение специалистов. Вот чего ищу. Цитата(DRUID3 @ Jan 30 2011, 13:33)  Реально... Вот чего нашел. Этого достаточно, еще раз спасибо. Ушел думать и писАть.
|
|
|
|
|
Feb 10 2011, 12:47
|

Группа: Новичок
Сообщений: 5
Регистрация: 24-12-10
Из: Новосибирск
Пользователь №: 61 848

|
Здравствуйте,подскажите чем можно запрограммировать и какой прогой,вот этот микроконтроллер AT91SAM9G45?
|
|
|
|
|
Feb 14 2011, 11:45
|
Участник

Группа: Участник
Сообщений: 28
Регистрация: 13-03-09
Пользователь №: 46 049

|
Цитата(forever_student @ Jan 19 2011, 21:54)  Открытая база для Festival (та, что я видел) >200 МБ. Сложность портирования пока не представляю. msu_ru_nsh_clunits? Есть проще: msu_ru_nsh_cg, msu_ru_nsh_diphone А ещё лучше - спросите у автора http://forum.sources.ru/index.php?showforum=35
|
|
|
|
|
Feb 20 2011, 17:03
|
Местный
  
Группа: Участник
Сообщений: 239
Регистрация: 15-11-09
Из: Санкт-Петербург
Пользователь №: 53 639

|
Цитата(forever_student @ Jan 19 2011, 15:41)  Нужен именно СИНТЕЗАТОР, т.е. текст заранее неизвестен, поэтому ориентироваться на словарь, наверное, неправильно. Если нужен ИМЕННО синтезатор, то здесь выход только один: так называемый "формантный синтезатор", которые часто использовались в доWinдовые времена. Он доходчиво описан в популярной книжке Кейтера "Компьютеры - синтезаторы речи" (я её еще в школе читал  . Берется база слогов (лучше, конечно, фонем, но это вряд ли возможно) далее эти слоги аналогично как в ЛПК-кодерах (тот же G.729 для примера) сегментируются на участки по признаку "гармоники-шум". Далее от озвученных участков берутся только частоты первых трех гармоник. На шумовых участках грубо оценивается спектр (по-сути тот же ЛПК (или АР, как кому нравиться) только с моделью очень низкого порядка). Эти данные и составляют базу. Размер её для русского языка будет смешным: что-то типа 20-30Кбайт. Ну и собственно дальше идет синтез слова по слогам. Если решать эту задачу совсем в лоб, то качество будет "упаси боже". Но, если с умом (имитировать коартикуляцию, переменную длительность слогов, оглушения и т.п.) - качество будет разумным, по-крайней мере, для каких-либо оповещателей.
|
|
|
|
|
Feb 20 2011, 19:08
|
Местный
  
Группа: Участник
Сообщений: 256
Регистрация: 5-04-09
Из: Москва
Пользователь №: 47 180

|
Цитата(Kluwert @ Feb 20 2011, 20:03)  ...Ну и собственно дальше идет синтез слова по слогам... Если бы все так было просто - давно бы уже сделали синтезатор хорошего качества хотя бы для PC. (Я прослушал примеры для Digalo, Festival, Alyona и т.д. Качество меня не устроило+геморрой со словарями и обучением - это нечто  ) Цитата(Kluwert @ Feb 20 2011, 20:03)  ...качество будет разумным, по-крайней мере, для каких-либо оповещателей... Хочется книжки слушать  P.S. За книжку спасибо - поищу обязательно
Сообщение отредактировал forever_student - Feb 20 2011, 19:09
|
|
|
|
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0
|
|
|