Привет,
Не нашел подходящего раздела, поэтому попробую здесь.
Задача собственно банальная - допустим человек находится в комнате и говорит вслух. Нужно выделять команды из речи, например по кодовому слову, распознавать их и выдавать, допустим в виде печатного текста или URL запроса. Язык - русский. Люди могут быть разные. Команды будут запрограммированы заранее.
Вопрос - это на сегодняшний момент возможно на стандартном оборудовании/сервисах с минимальным программированием? Как это организовывается? Подскажите, кто уже реализовывал.
Собственно интересует более конкретно: - Какова общая концепция - что ставится, как распознается голос, сервер, локально, через интернет? - Если через интернет - какие сервисы обычно используются для распознавания - Google, Siri другие? Если локально, какие программы, платные, бесплатные, на какой платформе? - Что с оборудованием - ставятся микрофоны в комнате, или делается через телефоны/планшеты? Как далеко можно стоять от микровонов? Нужно конкретно куда-то громко говорить или можно сделать так, что команда будет услышана, в каком бы месте комнаты она не была произнесена? Даже тихо? Как синхронизируются микрофоны? - Возможно ли организовать работу системы так, чтобы распознавание начиналось после того, как услышано кодовое слово - то есть без необходимости нажимать на специальные кнопки? - Обучение - с командами понятно. Но нужно ли обучать на тембр, произношение и голос конкретного человека? Если да, насколько сложно. - Насколько вообще надежно распознавание и какая может получиться общая задержка?
|