реклама на сайте
подробности

 
 
> Организация голосового управления, На каком оборудовании и какие концепции
syoma
сообщение Jan 11 2016, 08:49
Сообщение #1


Профессионал
*****

Группа: Свой
Сообщений: 1 817
Регистрация: 14-02-07
Из: наших, которые работают за бугром
Пользователь №: 25 368



Привет,

Не нашел подходящего раздела, поэтому попробую здесь.

Задача собственно банальная - допустим человек находится в комнате и говорит вслух. Нужно выделять команды из речи, например по кодовому слову, распознавать их и выдавать, допустим в виде печатного текста или URL запроса. Язык - русский. Люди могут быть разные. Команды будут запрограммированы заранее.

Вопрос - это на сегодняшний момент возможно на стандартном оборудовании/сервисах с минимальным программированием? Как это организовывается? Подскажите, кто уже реализовывал.

Собственно интересует более конкретно:
- Какова общая концепция - что ставится, как распознается голос, сервер, локально, через интернет?
- Если через интернет - какие сервисы обычно используются для распознавания - Google, Siri другие? Если локально, какие программы, платные, бесплатные, на какой платформе?
- Что с оборудованием - ставятся микрофоны в комнате, или делается через телефоны/планшеты? Как далеко можно стоять от микровонов? Нужно конкретно куда-то громко говорить или можно сделать так, что команда будет услышана, в каком бы месте комнаты она не была произнесена? Даже тихо? Как синхронизируются микрофоны?
- Возможно ли организовать работу системы так, чтобы распознавание начиналось после того, как услышано кодовое слово - то есть без необходимости нажимать на специальные кнопки?
- Обучение - с командами понятно. Но нужно ли обучать на тембр, произношение и голос конкретного человека? Если да, насколько сложно.
- Насколько вообще надежно распознавание и какая может получиться общая задержка?
Go to the top of the page
 
+Quote Post
 
Start new topic
Ответов (1 - 4)
adnega
сообщение Jan 11 2016, 09:05
Сообщение #2


Гуру
******

Группа: Свой
Сообщений: 2 724
Регистрация: 14-05-07
Из: Ярославль, Россия
Пользователь №: 27 702



Была такая статейка.
Go to the top of the page
 
+Quote Post
AlexandrY
сообщение Jan 11 2016, 09:13
Сообщение #3


Ally
******

Группа: Модераторы
Сообщений: 6 232
Регистрация: 19-01-05
Пользователь №: 2 050



Цитата(syoma @ Jan 11 2016, 10:49) *
- Насколько вообще надежно распознавание и какая может получиться общая задержка?


Тренируйтесь - https://www.google.com/intl/en/chrome/demos/speech.html
Go to the top of the page
 
+Quote Post
uriy
сообщение Jan 11 2016, 14:20
Сообщение #4


Гуру
******

Группа: Свой
Сообщений: 2 429
Регистрация: 30-11-05
Из: Ижевск
Пользователь №: 11 606



вот для локального распознавания http://cmusphinx.sourceforge.net/ но я не пробовал
Go to the top of the page
 
+Quote Post
syoma
сообщение Jan 19 2016, 05:46
Сообщение #5


Профессионал
*****

Группа: Свой
Сообщений: 1 817
Регистрация: 14-02-07
Из: наших, которые работают за бугром
Пользователь №: 25 368



Поискал в инете, вроде как неплохое решение получается с "Окей, Гугл". На планшете включается эта опция, затем ставятся Tasker + Autovoice. И в таскере настраиваются команды, например запуск запросов к серверу через REST API. Можно вместо REST API MQTT PUBLISHER плугин подключить.
Должно получаться примерно так:
https://youtu.be/P3QkGh8L2Mg
Русский язык проверил - распознавание работает хорошо. Единственное, что команду "ОК, Гугл" планшет запоминает, чтобы быстро переходить к распознаванию и это может не очень хорошо работать, если команду будут давать разные люди. Но есть пара приложений, которые настраиваются на любое слово - надо будет попробовать.

По поводу дальности микрофона - надо поэкспериментировать с bluetooth гарнитурами - вроде есть микрофоны для телеконференций, которые очень хорошо фильтруют все шумы и усиливают голос. А так мой единственный пока андроидный планшет распознает с 2-х метров, но надо громко говорить.
Go to the top of the page
 
+Quote Post

Reply to this topicStart new topic
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 


RSS Текстовая версия Сейчас: 22nd July 2025 - 12:50
Рейтинг@Mail.ru


Страница сгенерированна за 0.01376 секунд с 7
ELECTRONIX ©2004-2016