Голосовое управление c – Help – C# голосовое управление | GeekBrains

Содержание

Как настроить голосовое управление на Андроид



Как настроить голосовое управление на Андроид. Одна из главных задач операционной системы Андроид — это максимально простое и понятное управление устройством. В каждом обновлении появляется всё больше новых возможностей, которые существенно упрощают пользование. Одной из таких функция является голосовое управление Андроид.

Голосовое управление Андроид

Голосовое управление Андроид - это инновационная технология, с помощью которой можно управлять устройством без лишних манипуляций, а только голосом. Эта функция находится в стадии активного развития и усовершенствования.

Ok, Google на Андроид, даёт возможность более эффективно использовать устройство. Голосом можно выполнять много функций и получать качественный результат. К примеру, искать необходимую информацию, включать/выключать приложения и даже набирать текст. На сегодняшний день данная разработка не идеальна и включает в себя различные недоработки.

Все команды, которые возможно осуществить с помощью голосового управления делятся на две группы.

А именно:

  1. управление функциями самого устройства — если вы хотите послушать музыку, то просто скажите — «Проиграть плейлист», если хотите включить будильник, то произнесите фразу – «Разбуди меня в такое-то время» и так далее
  2. поиск информации — голосовым запросом можно узнать, например, погоду, посмотреть счёт игры любимой команды, найти слова песни и так далее

Но к сожалению, есть и некоторые ограничения в работе голосового управления. Иногда на невостребованные запросы вы не сможете получить информацию. Например, вас интересует расписание сеансов в кинотеатрах Киева, и вы без проблем получите ответ, а вот если вы зададите тот же запрос, но уже касательно менее крупного города, то тут могут возникнуть проблемы, и вы можете столкнуться с отсутствием информации.

Как включить голосовое управление

Для того, чтобы воспользоваться голосовым управлением Ok, Google, необходимо постоянное подключение к интернету. В ограниченных размерах приложение может работать и без интернета, но качество распознавания голоса будет очень плохим и использование функции будет практически невозможным.

Включить голосовое управление несложно. Для этого нужно:

  1. установить приложение Google, если оно у вас уже установлено, то убедитесь, что стоит именно последняя версия
  2. зайти в приложение Google
  3. в верхнем левом углу нажать значок, который выглядит как три горизонтальные линии
  4. далее зайти в «Настройки»
  5. выбрать «Голосовой поиск»
  6. после — «Распознавание Ok, Google» или «На любом экране»

На некоторых устройствах распознавание функции голосового управления доступно не только в приложении Google, но и в других программах. Для этого в программе Google нажмите:

  1. «Настройки»
  2. далее — «Приложения». Там у вас отобразится перечень программ, в которых вы можете использовать Ok, Google

Основными требованиями для работы голосового управления является наличие программы Google версии 3,5 или выше и операционная система Android 4.4 или выше.

Как настроить голосовое управление

Функция Ok, Google всегда активна при условии, если у вас запущено приложение Google или Google Chrome. После активации система зафиксирует ваш голос и в дальнейшем с распознаванием проблем не должно быть. Чтобы осуществить запрос достаточно произнести фразу Ok, Google и сформулировать вопрос или команду.

Как отключить голосовое управление

Отключить Ok, Google не сложнее, чем включить. Для этого нужно сделать следующее:

  1. зайти в приложение Google
  2. в верхнем левом углу значок, который выглядит как три горизонтальные линии
  3. выбрать «Голосовой поиск»
  4. далее «Распознавание Ok, Google»
  5. убрать флажок — «На любом экране» или «Всегда включено»

Команды голосового управления

Ok, Google распознаёт множество разных команд. Нет конкретного перечня выполняемых запросов, так как у каждого пользователя они разные.

Вот небольшой список команд, которые можно осуществить с помощью голосового управления:

  • позвонить любому человеку из списка контактов
  • отправить текстовое сообщения
  • отправить письмо по электронной почте
  • опубликовать запись в социальных сетях
  • отследить посылку
  • запустить приложение
  • узнать погоду
  • проложить маршрут до места назначения
  • найти место, компанию, заведение
  • перевести текст с одного языка на другой
  • определить песню и так далее


Не работает голосовое управление. Какие могут быть причины и как исправить?

Убедитесь, что голосовое управление активно: «Настройки» — «Голосовой поиск» — «Распознавание О’кей, Google». Установите флажок — «Из приложения Google». Также для правильной работы голосового управления необходимо подключение к интернету. Убедитесь, что устройство подключено к Wi-Fi или мобильному интернету. Попробуйте перезагрузить устройство.


Источник: androidmir.org



 

upgrade-android.ru

«Алиса, включи свет». Голосовое управление умным домом на базе openHAB. Без программирования и СМС


Ноябрь 2017 года, на календаре отображалось число одиннадцать. Распродажа на Aliexpress шла полным ходом, руки чесались что-нибудь купить. Выбор пал на "Ми-свет RGBW светодиодный лампы AC86-265V удаленного управление Smart освещения". В итоге были приобретены два экземпляра максимальной мощности, на 9 ватт, и хаб-контроллер MiLight WiFi iBox. Доставка из Китая не заставила себя долго ждать, а спустя 4 месяца, 13 марта 2018, открылась платформа Яндекс.Диалоги (платформа, позволяющая сторонним разработчикам добавлять умения голосовому помощнику «Алиса»). Следом Алиса научится управлять освещением (и не только) у вас в квартире, а мы с вами ей в этом поможем, поэтапно и без единой строчки кода.

  1. Настройка умных ламп от Xiaomi
  2. Установка openHAB
  3. Управление светом через openHAB
  4. Внешний доступ к openHAB
  5. IFTTT
  6. Алиса


1. Настройка умных ламп от Xiaomi.


Первое, что необходимо сделать, это настроить управление лампами, хотя бы с помощью приложения от Xiaomi. Если для вас этот этап пройден, смело переходите далее, к настройке сервера умного дома, или еще дальше, непосредственно к интеграции Алисы и openHAB. Но, обо всем по порядку. Сами лампы к вашему домашнему роутеру не подключатся, для этого нужен хаб iBox, который может контролировать до четырех групп источников света. Необходимо подключить его к сети, а затем связать с ним лампы.
  1. Подаем питание на iBox, подключив его по usb, к примеру, к зарядному устройству для телефона.
  2. При первом подключении необходимо сбросить настройки хаба, поэтому нажимаем RST.
  3. Далее устанавливаем на телефон приложение от Xiaomi под iOS или Android. Убеждаемся что телефон подключен к домашней сети Wi-Fi.
  4. Открываем приложение Mi-Light 3.0, нажимаем +. Тут нас интересует вкладка Smart Link.
  5. Вводим названием и пароль домашней Wi-Fi сети, к которой подключен телефон и планируется подключить
    iBox
    .
  6. Сейчас у вас iBox должен быть подключен к сети, а индикаторы SYS и LINK должны моргать, медленно и быстро соответственно. Если это не так, нажмите RST еще раз.
  7. Если индикаторы мигают, нажмите в приложении Start Configuration, начнется процесс настройки подключения для хаба.
  8. Через секунд десять мигание прекратится, затем SYS снова начнет медленно моргать, а LINK останется гореть. В приложении отобразится сообщение Configured. Хаб подключен к сети. Если в списке Device List его нет, то просто нажмите Searching for device.

Уже сейчас можно поуправлять цветом и яркостью самого iBox, но нам необходимо подключить лампы. Для этого выполним привязку ламп к одной из четырех зон, доступных хабу для управления.
  1. Открываем в приложении Mi-Light 3.0 из списка хаб Mi-Light. Заходим в раздел Colors.
  2. В верхней части экрана выбираем одну из зон, пусть будет Zone1. И нажимаем на иконку связывания устройств в правом верхнем углу. Откроется экран LINK/UNLINK с инструкцией.
  3. Теперь настраиваем те лампы, которые мы хотим привязать к Zone1, управление ими в дальнейшем будет происходить синхронно. Для управления яркостью и цветом каждой лампы в отдельности, их надо отнести к отдельным зонам. Итак, включаем лампу, и в течение первых трех секунд нажимаем в приложении Link. Если лампа моргнула три раза, то все отлично, синхронизация прошла успешно. Можно управлять лампой.


В принципе, на данном этапе у вас уже есть пульт для удаленного управления светом. Более того, вы можете написать свою систему управления освещением, благо протокол общения с хабом давно известен (когда-то он был доступен по ссылке limitlessled.com/dev). Есть готовые библиотеки на php, javascript, python. Но управление это возможно только из локальной сети, чего для Алисы явно не достаточно. Попробуем решить данную проблему.

2. Установка openHAB


Кратко, что такое openHab. Это сервер для управления умным домом с открытым исходным кодом. Разрабатывается сообществом, поддерживает управление огромным количеством устройств. Есть мобильный клиент, есть возможность управления Алексой от Amazon и ассистентом от Google. Написан на java, на базе фреймворка Eclipse SmartHome. А значит его можно установить хоть на холодильник, главное чтобы на этом холодильнике работала виртуальная машина Java. Инструкции по установке есть для Linux, Windows, Mac OS, Raspberry Pi, для различных сетевых хранилищ Synology и QNAP. Быстро пробежимся по первому варианту.
  1. Добавляем ключи репозитория:
    wget -qO - 'https://bintray.com/user/downloadSubjectPublicKey?username=openhab' | sudo apt-key add -
    sudo apt-get install apt-transport-https
  2. Добавляем сам репозиторий:
    echo 'deb https://dl.bintray.com/openhab/apt-repo2 stable main' | sudo tee /etc/apt/sources.list.d/openhab2.list
  3. Обновляемся и ставим сервер вместе с дополнениями:
    sudo apt-get update
    sudo apt-get install openhab2
    sudo apt-get install openhab2-addons
    sudo apt-get install openhab2-addons-legacy
  4. Настраиваем автоматический запуск сервиса после перезагрузки устройства и запускаем его:
    sudo systemctl start openhab2.service
    sudo systemctl status openhab2.service
    sudo systemctl daemon-reload
    sudo systemctl enable openhab2.service
  5. Теперь ждем в районе 15-20 минут (это не преувеличение, это суровая реальность с шутками про скорость работы Java), пока он загрузится и по адресу http://openhab-device:8080 появится веб интерфейс.
  6. На этой странице нас интересует пункт Paper UI. Именно с этим типом интерфейса будем работать в дальнейшем.


3. Управление светом через openHAB


Итак, у нас есть рабочий сервер умного дома и лампы от Xiaomi с возможностью удаленного управления. Необходимо их соединить. openHAB поддерживает биндинги (инструкции, позволяющие управлять подключенной электроникой) для множества устройств, в том числе и для данных ламп.
  1. Заходим в Add-onBindings.
  2. Устанавливаем Milight Binding.
  3. Для добавления нашего устройства нажимаем на + в разделе ConfigurationThings.
  4. Выбираем Milight Binding, начинается автоматический поиск устройства.
  5. У меня автоматически ничего не нашлось, поэтому я добавлял вручную "
    Manually add thing
    ".
  6. Выбираем для добавления хаб iBox/iBox2.
  7. На открывшейся странице необходимо заполнить поля IP и Bridge ID (mac адрес подключаемого устройства), их можно узнать, к примеру, в панели управления роутером (у меня хаб регистрируется в сети с именем используемого в нем Wi-Fi модуля HF-LPB100). Добавляем.
  8. Отлично, в списке устройств теперь отображается iBox/iBox2 с надписью "Online".
  9. Снова нажимаем на + и выбираем Milight Binding, чтобы на этот раз добавить непосредственно лампы.
  10. Теперь руками добавлять ничего не нужно, достаточно выбрать группу ламп из списка (в моем случае это пункт Rgbww Color (Zone 1)).
  11. Выбранный пункт должен появиться в списке вещей так же с надписью "Online".

  12. Устройства настроены, теперь необходимо добавить к ним элементы управления. Для этого кликаем по только что добавленному пункту.
  13. Открывается список параметров лампы, которыми мы можем удаленно управлять. Кликаем по синему кругу Brightness.
  14. Далее выбираем элемент управления, с которым хотим связать параметр устройства, т.к. у нас их еще нет, кликаем по Create new item.
  15. Задаем произвольное имя, к примеру Light_Switcher, и, меняем тип с Dimmer на Switch, т.к. у меня нет необходимости регулировать яркость лампы, я хочу ее просто включать и выключать. Меняем категорию просто на Light, чтобы элемент управления отобразился с иконкой в разделе Control. Нажимаем Link.
  16. Переходим в раздел Control и наслаждаемся работой переключателя Brightness у устройства.

4. Внешний доступ к openHAB


По соображениям безопасности, после описанных выше манипуляций, управление сервером умного дома возможно только из локальной сети. Этого для нашей задачи явно не достаточно. Вариантов настройки несколько: настроить VPN для доступа из интернета к локальной сети, сконфигурировать реверсивную прокси или же соединить ваш сервер с сервисом myopenHAB Cloud по адресу myopenHAB.org. Так-как в России число сотрудников Роскомнадзора прямо пропорционально числу пользователей VPN и прокси-серверов, воспользуемся последним вариантом.
Не следует множить сущее без необходимости

  1. Регистрируемся на сайте myopenHAB, авторизуемся и заходим по адресу https://myopenhab.org/account. На данной странице нас интересуют два поля: openHAB UUID и openHAB Secret. Именно они позволяют организовать связь серверов. Давайте разберемся где их взять.
  2. Заходим в панель управления PaperUI openHAB.
  3. Открываем раздел ConfigurationAdd-onsMisc.
  4. Устанавливаем openHAB Cloud Connector.
  5. В ConfigurationServices должен появиться модуль openHAB Cloud с режимом "Notifications & Remote Access".
  6. В ConfigurationSystemAdd-on Management должен быть активирован переключатель "Acceess Remote Repository".
  7. После установки аддона, искомые нами данные окажутся в файлах /var/lib/openhab2/uuid и /var/lib/openhab2/openhabcloud/secret (userdata/uuid и userdata/openhabcloud/secret, если ставили не из пакета). Вводим их в настройках аккаунта на myopenHAB и жмем Update. Если все настроенно корректно, то слева от адреса вашей почты должно появиться слово "Online". Это говорит о том, что доступ к вашему умному дому из сети интернет открыт, но сразу Алиса им воспользоваться не сможет. Для начала надо сделать доступным снаружи настроенное ранее устройство.
  8. Переходим в раздел ConfigurationServicesopenHAB CloudConfigure.
  9. В списке Items to expose to apps such as IFTTT активируем чекбокс для элемента управления яркостью и нажимаем Save.
  10. Через некоторое время проверяем, что выбранный элемент присутствует в списке на странице myopenhab.org/items со статусом "ON".

Теперь управление лампой возможно из интернета, через API openHAB Cloud, которое поддерживает авторизацию по OAuth3. Но, к сожалению, клиенты заранее предопределены, это Alexa, Google Assistant и сервис IFTTT. Алисы в данном списке пока нет. Но это не проблема!


5. IFTTT


Если это тогда то.

Сервис, позволяющий выстроить из нескольких сервисов цепочку действий. Условно отреагировать действием в одном сервисе, если сработал триггер на событие в другом сервисе. IFTTT поддерживает огромное количество сервисов, в том числе и интересующий нас myopenHAB. Но не поддерживает Алису. Вообще, любой желающий может создать там модуль для своего сервиса, в первую очередь для этого надо связаться с отделом продаж и выяснить размер вашего ежегодного платежа в пользу IFTTT. Наша же цель бесплатно воспользоваться сервисом, чтобы иметь возможность перенаправлять запросы от Алисы к openHAB.
  1. Регистрируемся на сайте ifttt.com и заходим в AppletsNew Applet.
  2. После нажатия + this, необходимо выбрать сервис, событие в котором будет являться триггером. Т.к. сервиса Алисы в списке нет, нам надо выбрать что-то, что сможет получать от нее команды. Это сервис Webhooks. Нажимаем Connect.
  3. Далее выбираем из списка с одним пунктом триггер "получение web запроса".
  4. Указываем имя события, к примеру light_on, и жмем Create.
  5. Теперь надо выбрать ответное действие, нажимаем на + that. Наш выбор openHAB, подключаем.
  6. В открывшемся окне, упомянутой ранее OAuth3 авторизации, кликаем по Allow.
  7. Доступна единственная реакция "отправить команду".
  8. Из выпадающего списка выбираем элемент управления лампой (например Light_Switcher), а в качестве команды включения света указываем слово "ON". Создаем.

Для проверки нам необходимо вызвать триггер у сервиса Webhooks. Как это сделать? Отправить POST запрос.
  1. Ищем на сайте IFTTT сервис Webhooks и заходим в связанную с ним документацию.
  2. На открывшейся странице есть команда, которую нам надо выполнить, заменив {event} на light_on.
  3. После нажатия на Test It, ваша лампа должна включиться.

Осталось создать аналогичный рецепт для события light_off, который будет отправлять команду OFF элементу управления светом. А затем научить Алису вызывать эти триггеры по нашему желанию.


6. Алиса


По моему веленью, по моему хотенью Алиса включит свет, если использовать платформу Яндекс.Диалоги. Платформа открылась в марте этого года и позволяет любому желающему добавить Алисе умений, за счет написания соответствующего кода. На данный момент в каталоге уже представлено огромное количество умений. Разработка умения, это тема для отдельной статьи на хабре, а у нас тут "без единой строчки кода". Так что воспользуемся имеющимися наработками.
  1. Устанавливаем бета версию поискового приложения Яндекс, только в нем на данный момент есть поддержка пользовательских умений.
  2. Говорим Алисе "включи волшебные заклинания". Именно умение волшебные заклинания/волшебное заклинание позволит нам выполнять POST запросы к серверам IFTTT.
  3. Нажимаем Добавить и указываем адрес для включения света вида:
    https://maker.ifttt.com/trigger/light_on/with/key/{user_id}
  4. Следующим шагом произносим фразу или слово, на которое Алиса будет реагировать выполнением запроса по указанному адресу (моя Алиса отвечает на «включи свет»).

Если вы теперь нажмете на соответствующую кнопку или озвучите предложение, то запрос от серверов Яндекса поступит на сервер умения, оттуда в IFTTT, следом в myopenHAB, который передаст данные в ваш локальный инстанс, имеющий непосредственный доступ к хабу ламп, и свет включится. Аналогичную команду сразу добавим и для выключения освещения.
Надо понимать, что недостаточно просто включить Алису и произнести "включи свет". Яндекс ничего не знает о наших командах для умного дома, данные о них хранятся в базе умения "волшебные заклинания". Поэтому сначала нужно вызвать умение, произнеся "включи волшебные заклинания", а уже потом включать и выключать свет голосом.

P.S.


Подход с интеграцией Алисы и openHAB через IFTTT ни чем не ограничивает вашу фантазию. Вы можете с помощью умения "волшебные заклинания" голосом управлять любыми вещами в вашем умном доме. К примеру, в openHAB есть биндинг для Samsung SmartTV, который позволяет управлять звуком и каналами телевизора. Взаимодействие Алисы и Webhooks представляет из себя реализацию голосового интерфейса ко всем сервисам IFTTT, "волшебные заклинания" позволяют выполнить команду любого из них. А можете вообще не использовать Алису, и написать свой фронтэнд, к примеру мобильное приложение, которое будет выполнять запросы к IFTTT через все те же Webhooks. Да и IFTTT использовать не обязательно, по аналогии можно настроить "волшебные заклинания" на выполнение запросов к вашему серверу.

habr.com

Голосовое управление компьютером: встроенное, Typle

Существует несколько причин, по которым пользователи не могут управлять компьютером с помощью штатных средств — клавиатуры и мыши. Во-первых, это может быть связано с поломкой названных устройств. Во-вторых, такая необходимость возникает у людей с ограниченными возможностями. И наконец, в-третьих, пользователи просто хотят как-то облегчить себе задачу работы с компьютером, отдавая ему команды голосом.

Голосовое управление компьютером выполняется при помощи специального программного обеспечения.

ОС Windows располагает штатным приложением распознавания речи, но к сожалению, оно не поддерживает русский язык, а только — английский, французский, испанский, немецкий, японский и китайский.

Если интерфейс вашего дистрибутива Windows рассчитан для носителей одного из вышеперечисленных языков и, конечно, вы говорите на нём, тогда вы сможете использовать штатную программу распознавания речи. Для этого нужно проделать 3 шага: настроить микрофон, пройти несложный учебный курс по управлению компьютером при помощи голоса (он также включен в Windows) и настроить саму программу распознавания речи.

Чтобы сделать это, необходимо (описание разделов ОС будет вестись на русском языке):

  • В меню «Пуск» находим раздел «Панель управления» и открываем его. Далее ищем «Распознавание речи».
  • Чтобы начать настройку микрофона, зайдите в соответствующий раздел — «Настройка микрофона». Запуститься мастер, который поможет вам произвести необходимые настройки.
  • Теперь необходимо запустить учебник. Для этого также заходим в раздел «Распознавание речи», а затем запускаем команду «Использование речевых учебников». Снова следуйте инструкциям мастера.
  • Для настройки программы распознавания речи следует запустить команду «Научите компьютер лучше понимать вас» в том же разделе «Специальные возможности» панели управления. По окончанию процедур вы сможете использовать ваш микрофон в качестве средства для управления компьютером.

А что же делать русскоязычным пользователям Windows? К счастью, выход есть — использование сторонних программ. Подобных приложений существует множество — и платных, и бесплатных. Среди всех приложений для голосового управления компьютером с системой Windows особенно выделяется Typle. О ней и пойдёт речь далее.

Управление компьютером с помощью Typle

По мнению большинства пользователей, кто предпочитает управлять компьютером при помощи голоса, программа Typle является одной из самых лучших (если не самой лучшей).

Это небольшое по размеру приложение способно не только выполнять команды, имеющиеся в её базе данных, но и поддерживает создание пользовательских. Именно последнее особенно ценится в этом приложении.

Программа распространяется бесплатно, но в бесплатной версии имеются ограничения по созданию пользовательских команд. Однако этих возможностей вполне достаточно для штатного пользователя.

Итак, скачиваем и устанавливаем программу. При первом запуске приложение попросит ввести некоторые личные данные — в эти поля вы можете указать любые символы. Затем вам предстоит выбрать лицензию — выбирайте первый вариант из 3-х предложенных (пока все надписи будут на английском языке) и нажимайте Next.

После того, как приложение соберёт нужную ему для работы информацию, вы увидите стартовое окно с подсказками:

Typle попросит вас нажать на кнопку «Добавить». После нажатия потребуется ввести ваше имя (вводите любое) — это нужно для того, чтобы приложение смогло выполнять именно ваши команды в случае, если вы не являетесь единственным пользователем компьютера. Также заполняем поле «Введите ключевое слово» (можно оставить предложенный вариант «Открой»). Именно это слово будет использоваться для запуска ваших команд, а точнее — эта фраза даст программе сигнал к выполнению команды, которую вы будете произносить далее.

Осталось нажать на кнопку записи, а затем произнести какую-либо фразу (длина записи должна быть короче 1,5 секунд). Для проверки можете проговорить «Открой». После успешной записи Typle спросит вас о сохранении записанной команды.

Далее нажимаем на кнопку «Добавить» в верхнем меню. Откроется окно, в котором вам нужно выбрать программу для её запуска после произнесения ключевого слова в микрофон. Для примера выберем приложение «Opera 35» (вы можете выбрать любую свою программу — браузер, проигрыватель или какой-нибудь мессенджер типа Skype).

Обратите внимание на нижнюю часть окна. В данный момент галочка установлена на пункте «Программы и файлы». Вы также можете выделить и другие пункты. Например, установите галочку на «Windows файлы». Теперь в окне выбора команд для запуска отобразятся стандартные программы Windows (блокнот, Paint, командная строка и так далее), а также различные системные приложения, такие как «Центр обновления» или «Мастер дефрагментации диска» и другие. Это удобная возможность для пользователей, которым часто приходится сталкиваться с настройкой системы компьютера.

Ещё одна интересная способность Typle — возможность открывать избранные интернет-сайты. Для этого нужно установить галочку на пункте «Фавориты Интернета» и выбрать из списка нужный сайт.

Как только вы выбрали подходящее действие, для его выполнения потребуется записать команду. Для этого нажимаем на значок записи рядом с полем, в котором написано название выбранного действия (программы, сайта и тому подобное), а затем произносим любую фразу. В нашем случае — это «Опера».

После успешного сохранения записи вы можете проверить правильность выполнения команды с помощью программы Typle. Для этого вам нужно проговорить в микрофон слово «Открой», а затем сразу фразу, которая была записана вами на последнем шаге для запуска той или иной программы. В нашем случае команда звучит как «Открой Опера». После этих слов программа автоматически запустит браузер.

Как видите, управлять компьютером средствами программы Typle не так уж и сложно. Вы можете создать множество различных команд, при произнесении которых будут запускаться те или иные приложения, открываться документы либо начинаться воспроизведение видео или музыки.

Видео по теме — программа VoxCommando

Хорошая реклама

ustanovkaos.ru

Программа для голосового управления компьютером windows 10. Голосовой ассистент Cortana

Чаще всего при работе за персональным компьютером нам приходится набирать тексты большого объема. Сидя непосредственно перед монитором, мы теряем много времени, хотя могли бы совершать какие-либо дела по дому.

Прошлый век

Разберёмся, что такое голосовое управление компьютером. Проведём некоторую аналогию. Раньше, да и сейчас, очень распространённым способом "освободить руки" от компьютера во время работы являлся найм ещё одного сотрудника - стенографиста или секретаря. Однако мало кто знает, что можно избежать лишних трат путём установки на персональный компьютер ряда программ и утилит, позволяющих осуществлять голосовое управление компьютером на русском языке.

С появлением таких программных продуктов, как "Горыныч" и WebSpeach, вы можете забыть о том, как долгими часами приходилось сидеть и печатать какую-либо работу, например, диплом, приказ или любую другую документацию. С развитием компьютерных технологий появился вариант использования специальной программы распознавания речи.

Встроенные утилиты

Голосовое управление компьютером Windows 8 осуществляется с помощью встроенной утилиты Windows Speech Recognition. К сожалению, в настоящий момент управление компьютером на русском языке невозможно. Компания Microsoft, во всей видимости, старается ориентироваться на наиболее распространённые языки, однако не исключено, что в скором времени будет выпущена поддержка и русского языка.

Если же вы всё-таки хотите попробовать управлять своим железным товарищем с помощью английского языка, следуйте следующей инструкции.

  1. Заходите в панель управления в подпункт "Язык". Вам необходимо установить язык системы - английский. Если он у вас отсутствует, то вам потребуется загрузить соответствующий языковой пакет.
  2. После загрузки и установки языка переходим в начальный экран с "плиткой".
  3. Вводим в поиск Windows Speech Recognition и нажимаем Enter. Так запускается программа распознавания голоса.
  4. При первом запуске вам будет предложено настроить микрофон. Выберите вашу разновидность и произнесите пару слов.
  5. Затем вам будет предложен 20-минутный обучающий курс. Он проводится на английском, поэтому, если вы не понимаете язык, можете смело его пропускать. Интерфейс у программы абсолютно понятный, поэтому разобраться с ним сможет даже ребёнок.
  6. Чтобы включить голосовое управление компьютером, вам будет необходимо произнести ключевую фразу "Start listening". Это означает - "начать прослушивание". Теперь можете запускать необходимую вам программу и начинать надиктовывать текст.

Вообще, возможности этой утилиты неисчерпаемы. Кроме использования базовых команд, вы также можете создавать свои.

Развитие

Было создано множество приложений для распознавания русской и английской речи:

  • "Диктограф 5";
  • "Перпетуум мобиле";
  • Voice_PE;
  • Lucent;
  • VoiceType;
  • Sakrament.

Однако наибольшую популярность набрали:

  • "Горыныч";
  • Web Speech;
  • RealSpeaker;
  • Speechka.

Займёмся их более подробным рассмотрением.

"Горыныч"

Как можно понять из названия, приложение было создано командой русских программистов и получило название в честь русского сказочного персонажа с именем Горыныч. Голосовое управление компьютером в ней осуществляется на русском языке, впрочем, имеется также и поддержка английского. "Горыныч" позволяет управлять персональным компьютером в пользовательском режиме, то есть совершать все возможные действия, которые вы можете производить с помощью мышки и клавиатуры: работа с окнами, приложениями, процессами, запущенными на персональном компьютере. Более того, "Горыныч" распознаёт речь исключительно одного хозяина, но не всегда.

Однако существует один достаточно большой недостаток. Дело в том, что всю базу команд вам необходимо вводить вручную. То есть, перед тем как вы сможете хоть что-то сделать на компьютере голосом, вам необходимо создать целую базу с записанными вашим голосом командами. Даже если вы это сделаете, в случае если вы вдруг охрипнете или поменяется хоть немного тембр голоса, "Горыныч" напрочь откажется вас понимать.

Очередной подводный камень заключается в том, что если вы хотите надиктовывать тексты на компьютер, вам предварительно потребуется создать огромный словарь для "Горыныча" с хорошим словарным запасом, чтобы он смог понять то, что вы диктуете.

Speechka

Обеспечить это могут помочь сторонние приложения, устанавливаемые на персональный компьютер. Одним из них является Speechka. Так же, как и "Горыныч", русский продукт, созданный на основе технологий Google, "Спичка" позволяет пользователю с помощью заданного набора команд осуществлять голосовое управление компьютером. Speechka достаточно неплохо распознаёт любую речь, и для неё нет необходимости записывать звуковые файлы. Достаточно просто с клавиатуры ввести слово и ассоциировать его с каким-либо действием. Проще говоря, это достойный существования продукт, однако находящийся на стадии разработки, поскольку такие функции, как закрытие окон или запуск программ были добавлены сравнительно недавно.

Набор текста

Разобравшись, что такое голосовое управление компьютером, рассмотрим проблему набора текста. Как было уже сказано, не все приложения позволяют его производить. В большинстве случаев для этого необходимо предварительно составить целый словарь, а если вы являетесь пользователем Windows 8, то еще возникает проблема поддержки русской речи. Для того чтобы решить эту проблему, существует сервис голосового набора, созданный Google.

Доступное только для браузеров Chrome, приложение Google Web Speech распознаёт 32 ведущих мировых языка, в том числе и русский. Для того чтобы вводить текст голосом, вам потребуется соответствующий браузер, Интернет и микрофон. Разработки продвинулись достаточно далеко, поэтому эта утилита способна воспринимать грамотную русскую речь целыми словами и переводить её в печатный текст.

Еще одна программа для распознания речи и надиктовки её на персональный компьютер - RealSpeaker. Она использует современные технологии распознавания мимики лица. Для её использования подойдёт абсолютно любая веб-камера. Единственное неудобство, которое возникает при работе, это то, что лицо говорящего должно быть точно напротив камеры, на расстоянии не более 40 сантиметров. В этой программе существует словарь русского языка, который пользователь при желании может расширить. В целом эта программа намного удобнее "Горыныча".

Итог

Если вы задумались об управлении компьютером голосом, поверьте, это пока не для России. Адекватные программы распознавания на сегодняшний день существуют только на английском языке, а автоматический голосовой набор текста будет содержать столько ошибок, что будет проще написать текст с нуля, чем исправлять все опечатки. Вы, конечно, можете постараться выучить английский язык и управлять компьютером на нём, однако вам потребуется идеальная дикция и произношение.

Ко мне обратился человек с просьбой написать программу, которая позволила бы управлять компьютерной мышью при помощи голоса. Тогда я и представить себе не мог, что, практически полностью парализованный человек, который даже не может сам повернуть голову, а может лишь разговаривать, способен развить бурную деятельность, помогая себе и другим жить активной жизнью, получать новые знания и навыки, работать и зарабатывать, общаться с другими людьми по всему свету, участвовать в конкурсе социальных проектов.

Позволю себе привести здесь пару ссылок на сайты, автором и/или идейным вдохновителем которых является этот человек – Александр Макарчук из города Борисов, Беларусь:

Для работы на компьютере Александр использовал программу «Vocal Joystick» - разработку студентов Университета штата Вашингтон, выполненную на деньги Национального Научного Фонда (NSF). См. melodi.ee.washington.edu/vj

Не удержался

Кстати, на сайте университета (http://www.washington.edu/) 90% статей именно про деньги. Трудно найти что-нибудь про научную работу. Вот, например, выдержки с первой страницы: «Том, выпускник университета, раньше питался грибами и с трудом платил за квартиру. Теперь он старший менеджер ИТ-компании и кредитует университет», «Большие Данные помогают бездомным», «Компания обязалась заплатить 5 миллионов долларов за новый учебный корпус».

Это одному мне режет глаз?


Программа была сделана в 2005-2009 годах и хорошо работала на Windows XP. В более свежих версиях Windows программа может зависнуть, что неприемлемо для человека, который не может встать со стула и её перезапустить. Поэтому программу нужно было переделать.

Исходных текстов нет, есть только отдельные публикации, приоткрывающие технологии, на которых она основана (MFCC, MLP – читайте об этом во второй части).

По образу и подобию была написана н

iuni.ru

Управление android при помощи голоса? – Полное описание [2019]

Загрузка...

Управление техникой голосом до недавнего времени можно было наблюдать только в фантастических фильмах, описывающих мир будущего. Но уже сейчас дать команду мобильному устройству без использования рук достаточно просто. Выход обновлений программного обеспечения постоянно расширяет функционал этой опции и улучшает распознавание речи. В текущей статье рассмотрим, как работает голосовое управление Андроид, опишем необходимые настройки и основные команды.

Историческая справка

Будет полезным

Выполнение команд голосом было применено еще в 2011 году с интеграцией программы Siri в устройствах под управлением iOS.

Первым смартфоном с данной возможностью стал iPhone 4S, но русскоговорящей аудитории компании Apple использовать виртуального помощника до сих пор удается с трудом. Распознавание русского языка остается на низком уровне, требуется дальнейшая доработка.

Обратите внимание

В устройствах, работающих на Андроид, голосовое управление появилось с выходом версии ОС 4.1.

Приложение Google Now могло выполнять многочисленные действия после произнесения речевой команды. Поддержка русского языка появилась в 2013 году. Программа отлично распознает голос и позволяет существенно расширить функционал смартфона.

Как настроить голосовой помощник

В большинстве прошивок мобильных телефонов и планшетов голосовое управление установлено по умолчанию. В противном случае необходимо посетить Play Market, ввести в строку поиска «Google», открыть страницу и установить приложение.

Далее рассмотрим, как включить голосовое управление:

  • Открыть настройки мобильного телефона, перейти в раздел расширенных параметров.
  • Выбрать пункт «Язык и ввод», затем «Голосовой ввод Google».
  • Нажать строку «Управление голосом (Voice Match)». Активировать опцию «Распознавать Ok Google всегда».

Обратите внимание

Если нет необходимости в постоянном распознавании голоса, можно разместить виджет приложения на рабочий стол.

В таком случае команду следует начинать произносить после нажатия на значок микрофона.

Особых инструкций касательно того, как отключить опцию, нет. Следует удалить виджет и приложение или отключить функцию постоянного распознавания.

Практическое применение

На практике голосовое управление помогает справляться со многими задачами, оставляя руки свободными. Вот некоторые их них:

  • Запуск приложений без необходимости поиска ярлыка и попадания по маленьким иконкам.
  • Установка маршрута во время нахождения за рулем. Не потребуется отвлекаться от дороги и отпускать управление.
  • Создание снимков на смартфоне, расположенном на штативе.

Список можно продолжать очень долго. Каждый пользователь найдет действие, которое будет удобно выполнять речевой командой.

Голосовые команды

 Загрузка ...

Все действия, задаваемые при помощи слов, могут быть условно разделены на 2 категории:

  • Контроль и изменение функций телефона или планшета. Установка будильника и напоминания, создание заметки, отправка СМС, осуществление исходящего вызова, проигрывание музыки и т.д.
  • Поиск информации в интернете. Задав поисковый запрос, можно быстро получить интересующую информацию. Например, узнать расписание сеансов кинотеатра или счет футбольного матча. Конечно, данных будет больше в отношении крупных городов и популярных мероприятий. Осуществляя поиск касательно небольших населенных пунктов, можно не получить требуемых сведений.

Далее будет представлена информация об основных голосовых командах. Рассмотрим, как следует задавать запрос, и какого результата можно добиться.

Справочная информация

Прежде всего, с помощью голосового запроса можно узнать любую интересующую информацию. Например, столицу какой-то страны, создателя ОС Андроид, самую длинную реку планеты и т.д. Если активировано непрерывное распознавание команд, следует лишь произнести «Ok Google» и задать поисковый запрос.

Среди прочих функций можно выделить следующие:

  • Распознавание мелодии. Требуется сказать «что за песня» и подставить микрофон смартфона под проигрываемый трек. Система постарается распознать композицию и сообщить ее название.
  • Перевод с иностранного языка. Например, как перевести слово «love».
  • Выполнение расчетов. Система сможет легко подсказать квадратный корень из 53, сумму двух чисел, процентное выражение и т.д.
  • Конвертация величин. С помощью голосового управления выполняется конвертация валют, пересчет миль в километры, дюймов в сантиметры и т.д.
  • Стоимость акций компаний и курс валют. Указав запрос вида «цена акций Microsoft», можно немедленно получить требуемый показатель. Также система покажет курс доллара, рыночную капитализацию, стоимость биткоина и прочее.

Набор номера

Чтобы осуществить исходящий вызов, необходимо сказать следующую фразу: позвонить «имя абонента». Если в записи контакта присутствует несколько номеров, система попросит уточнить данные. Необходимо произнести словами «рабочий» или «мобильный», затем порядковый номер (если записей несколько).

Отправка СМС

Подобным образом осуществляется написание и отправка сообщений. Порядок действий будет следующим:

  • Сказать «Ok google».
  • Затем произнести: написать «имя контакта» + текст сообщения + отправить.
  • Сообщение будет отправлено указанному абоненту.

Будет полезным

В случае с необходимостью отправки текста через стороннее приложение следует диктовать команду в таком порядке: сообщение + название приложения + имя абонента + текст.

В итоге голосовой запрос будет следующим: сообщение Viber, Андрей, сейчас за рулем, перезвоню позже. Для пересылки добавить «Отправить».

Установка будильника

Чтобы завести будильник, совершенно нет необходимости заходить в настройки часов и выставлять время вручную. Следует лишь произнести «разбуди меня в 7 утра» и время сигнала будет задано. По умолчанию создается разовый сигнал, который будет выполнен в ближайшие 24 часа.

Календарь и время

Голосовой запрос поможет создать напоминание в календаре и добавить текстовую запись. Помощник Google поддерживает такие команды:

  • добавить напоминание;
  • установить таймер на 3 минуты;
  • часовой пояс «название страны»;
  • восход солнца в «название города».

Погода

По части определения текущего состояния погоды голосовой помощник имеет весьма широкий функционал. Запросы можно задавать следующим образом:

  • погода;
  • погода в «название города», если требуется узнать прогноз в месте, отличном от текущего местоположения;
  • ожидается ли сегодня дождь;
  • скорость ветра;
  • возможные осадки завтра.

Навигация

Произнеся голосовую команду, можно узнать текущее местоположение, сориентироваться на местности и проложить путь к интересующему объекту.

Обратите внимание

Построение маршрута выполняется исходя из средства передвижения: пешком, на велосипеде, автомобиле, общественном транспорте.

Система умеет показывать фотографии расположенных поблизости зданий и значимых ориентиров.

Поисковые команды могут быть следующими:

  • карта Лондона;
  • проложить маршрут до ул. Образцовой, дом 12;
  • рестораны, кафе, магазины, аптеки поблизости;
  • где находится гора Эверест.

Особенно удобно пользоваться голосовым управлением при вождении автомобиля. Задать маршрут движения можно, не отрывая рук от руля.

Контроль функции и запуск приложений

В завершении изучения возможностей голосового помощника рассмотрим изменение настроек системы и открытие приложений. Количество поддерживаемых функций и команд не слишком обширно, но при практическом применении этого оказывается вполне достаточно. В качестве примера приведем следующие команды:

  • открыть Facebook, Instagram или любое другое приложение;
  • увеличить или уменьшить яркость экрана;
  • повысить или понизить громкость;
  • следующая песня плейлиста;
  • включитьWi-Fi, Bluetooth;
  • активировать фонарик;
  • сделать фото;
  • записать видео;
  • открыть будильники.

Рассмотренные выше команды являются основными и помогут использовать функционал голосового помощника в полную силу.

Важно знать

При произнесении задачи следует говорить четко и без запинок, иначе система запутается и не сможет выполнить действие.

В начале речи необходимо полностью представлять команду в голове. После нескольких тренировок дальнейшее использование функции не вызовет затруднений.

Далее кратко опишем принцип работы программы, позволяющей осуществлять голосовое управление всей системой Андроид.

Voice Access

Помимо Ok Google, в операционной системе существует функция, предназначенная для пользователей с ограниченными возможностями.

Будет полезным

Voice Access обеспечивает управление голосом в масштабе всей ОС.

Первый запуск программы произошел в 2016 году. В данный момент она все еще находится в режиме тестирования, но уже достаточно хорошо справляется со своими задачами.

В основу программного обеспечения были положены те же технологии, что и для поиска голосом. Активированное приложение присваивает каждому элементу окна порядковый номер. Для воздействия с любым из них требуется лишь назвать расположенную рядом цифру. При этом исключается всякий физический контакт.

Voice Access обладает и другими навыками, распространяющимися на систему в целом. Например, можно открыть браузер, перейти на рабочий стол, пролистать страницу вниз и т.д. Другими словами, приложение заменяет жесты, касания, ввод текста и его редактирование.

Невзирая на статус beta-версии, Voice Access открывает невероятные возможности по части речевого управления системой Андроид. В паре с «Ok Google» они становятся лучшими голосовыми помощниками, существующими на сегодняшний день. Пользователи мобильных устройств никогда ранее не имели столь широких возможностей для простого взаимодействия с телефонами и планшетами.

mobila.guru

Голосовое управление компьютером

Взаимодействовать с компьютером можно не только при помощи клавиатуры и мыши. Доступно также управление голосовыми командами. Существуют специальные утилиты, которые позволяют это сделать. В их функции входит не только запись текста под диктовку или расшифровка аудиозаписей. Через них можно запускать приложения, использовать их, да и вообще — делать что угодно. Управление компьютером голосом облегчает работу с ПК. Команды передаются оперативно и без лишних усилий. Конечно, если у вас есть микрофон.

Мы познакомим вас с приложениями с подобным функционалом

Такая функция встроена в англоязычную версию Windows. Для её использования у вас должна быть лицензия Enterprise или Ultimate. Но и в русифицированных операционных системах можно настроить управление голосом и диктовку текста. Воспользуйтесь одним из следующих приложений.

Typle

С приложением разобраться несложно

Популярная программа. Хотя и имеет свои недостатки. Суть её работы простая: задаёте команду и выбираете, какое действие она должна выполнять. Рассмотрим настройку этого приложения на конкретном примере.

  1. Загрузите и установите его. Есть бесплатная и Premiun версия. Вторую надо покупать, чтобы испробовать её на компьютере.
  2. Запустите утилиту. В ней появится информационное окно с подсказками.
  3. На её панели управления есть много различных функций. Некоторые — с одинаковыми названиями. Надо ориентироваться по картинке, а не по надписи. Нажмите кнопку «Добавить» — на ней изображено лицо.
  4. Задайте имя профиля и ключевое слово, которое будет обозначать команду. К примеру, напишите «открыть», если собираетесь настроить запуск какого-то приложения голосом. Или «перейти на», чтобы мгновенно перейти на какой-то сайт, не вводя его адрес.
  5. Теперь надо записать эту самую команду в виде звукового образа. Нажмите на кнопку с красным кружком. И чётко, внятно произнесите в микрофон нужную фразу.
  6. Подтвердите изменения. Заданная опция появится в списке в окне Typle. Программа запомнит то, что вы записали на её «диктофон».
  7. После этого укажите, что, собственно, ей запускать для выполнения команды. Нажмите кнопку «Добавить», которая похожа на руку с символом «+» (плюс).
  8. Выберите формат данных: файлы/утилиты, интернет-страницы, какие-то внутренние сервисы ОС. Поставьте «галочки» там, где вам нужно.
  9. Найдите то приложение, которое хотите запускать голосом. Пусть это будет, например, Microsoft Word. Так вы сможете очень быстро приступить к редактированию какого-то текста или написанию статьи.
  10. В том же окне запишите вторую часть команды. Чтобы в сумме получилось «открыть Ворд». Первое слово будет активировать Typle, второе — включать привязанную утилиту.
  11. Нажмите «Добавить».
  12. К одной функции «открыть» можно прицепить несколько приложений. Так вы будете управлять их запуском, не прикасаясь к мыши и другим периферийным устройствам, установленным на компьютере.
  13. Если надо, отредактируйте дополнительные параметры.
  14. Чтобы проверить, получилось или нет, нажмите на «Начать говорить» и скажите команду.

Программа работает с русским языком. Но не всегда правильно его распознаёт. Говорить надо громко, чётко, механическим голосом.

Плюсы:

  • Не нужны знания английского.
  • Быстрое создание команд.

Минусы:

  • Нет распознавания текста.
  • Ограниченный функционал. Можно лишь открывать утилиты и страницы в интернете.
  • Программа иногда воспринимает посторонние шумы как команды. Из-за этого на ПК происходят странные вещи.
  • Нельзя работать с плеером.

Speechka

Еще одно приложение для управления компьютером

Теперь о том, как управлять компьютером голосом, используя приложение Speechka.

  1. При первом запуске откроется окно с выбором категории: ПК или интернет.
  2. Там же есть пояснение, каким сочетанием клавиш надо активировать утилиту. Это можно изменить в настройках.
  3. Нажмите, к примеру, на «Интернет». Откроется окно с несколькими полями для ввода: для текста команды и для URL сайта. Можно написать слово «Яндекс» и адрес этой страницы.
  4. Кликните «Добавить».
  5. Зажмите клавиши, указанные на главном окне.
  6. Произнесите команду, чтобы утилита её «запомнила».

Плюсы:

  • Активация как клавишами, так и по громкости звука.
  • При запуске можно откалибровать микрофон.

Минусы:

  • Ограниченный функционал.

Speaker

Интерфейс выполнен в минималистическом ключе

Команды в приложении настраиваются при помощи печатных слов, а не диктовки. Есть внутренний механизм распознавания текста. Основные функции:

  • Создание скриншотов по команде.
  • Смена раскладки клавиатуры на компьютере.
  • Открытие приложений и файлов.
  • Завершение работы.

Плюсы:

  • Можно не делать аудиозапись с командой. Утилита распознаёт надписи.

Минусы:

  • Для управления надо использовать клавиатуру. Если заданная кнопка используется и для других целей — будет неудобно.
  • Нужно стабильное интернет-соединение.

Горыныч

Герой русских народных сказок поможет вам

Программа для управления компьютером голосом «Горыныч» — отечественный продукт. Поэтому там «родной» модуль распознавания речи. Он «приспосабливается» к тембру и интонациям пользователя. С утилитой можно полноценно работать в системе, а не просто открывать файлы и веб-страницы.

Плюсы:

  • Есть поддержка русского и английского языков.
  • Распознавание текста, голосовой ввод в любые редакторы.
  • Расширенный функционал.

Минусы:

  • Надо самостоятельно создавать команды для каждого процесса. В буквальном смысле придётся записывать словарь.

Windows Speech Recognition

Встроенная в английскую ОС программа. Для её использования у вас должен быть установлен соответствующий языковой пакет. Русские команды с ней работать не будут. Чтобы управлять ПК с её помощью, придётся говорить на её языке. Для получения доступа к ней в Панели настроек Windows откройте меню «Язык и региональные стандарты» (оно находится в категории «Часы, язык, регион») и во всех вкладках установите «Английский». Если всё правильно, и у вас установлен необходимый языковой пакет, Windows «превратится» в английскую, и утилита станет доступна. Лучше не пробовать данные метод, если вы плохо знаете чужой язык.

Данный способ подойдет в том случае, если вы владеете английским

Прочие утилиты

Есть ещё ряд приложений для управления такими командами:

  • Расширения для браузеров. Облегчают сёрфинг по сети. В Google Chrome уже встроена подобная функция — голосовой ввод в поисковые формы. Эта опция есть на некоторых онлайн-картах. Она позволяет быстрее найти адрес.
  • VoiceType.
  • RealSpeaker.
  • Web Speech.

Список программ для распознавания текста и записи под диктовку

Управлять голосом — это, конечно, хорошо. Но могут оказаться полезными утилиты для распознавания текста и печати под диктовку. При составлении объёмных докладов, дипломов легче записывать свои мысли, озвучивая их в микрофон на компьютере. Вот несколько таких утилит:

  • Диктограф.
  • Dragon Naturally Speaking.
  • Перпетуум-Мобиле.

Продукт, позволяющий диктовать текст компьютеру

В ОС можно настроить голосовые команды. Для этого на компьютере должна быть установлена соответствующая программа. С ней вы сможете работать на ПК, лёжа на диване или развалившись в кресле. У вас будут свободны руки. Если микрофон хороший и улавливает даже отдалённые или тихие звуки, вам не потребуется рядом с ним сидеть. Вы можете одновременно «разговаривать» с компьютером и записывать конспект в тетради, рисовать, держать что-то. Да хоть шить и вязать. С командами взаимодействовать с ПК намного легче. Для активации некоторых подобных утилит нужно нажимать кнопки на клавиатуре, что не очень удобно.

Но есть и отрицательные аспекты. Если вы случайно скажете слово-команду, откроется совершенно не нужное сейчас приложение или обозреватель не к месту перейдёт на какой-то сайт. Чем пользоваться и пользоваться ли вообще — решать вам.

nastroyvse.ru

Голосовое управление

Лет 15 назад было забавно мечтать о технологиях, которые позволят в будущем общаться с техникой в буквальном смысле на одном языке. Идея голосового управления неоднократно воспевалась в кино и книгах, затем долгое время считалась секретной государственной разработкой. Сегодня без помощи рук мы можем управлять компьютером, телефоном, машиной, и ведь дело не только в известном всем двигателе прогресса. Голосовое управление помогает людям с ограниченными возможностями и открывает перед обычными пользователями новые возможности для управления техникой. А ведь все начиналось очень и очень примитивно.

Привет из далеких 60 - х

Первое устройство для распознавания голоса увидело свет в далеком 1964 году. IBM Shoebox произвел настоящую сенсацию в индустрии речевых технологий: он работал с цифрами от 0 до 9 и довольно хорошо понимал речь в 95-97% случаев. Мало кому известно, что имеющийся в арсенале IBM мощный программный пакет для высококачественного распознавания естественной человеческой речи ViaVoice берет свое начало именно с Shoebox. Развитие технологии голосового управления началось в 60 - х годах прошлого столетия. До 90 - х годов эта тема вообще находилась под строжайшим государственным секретом, потому как технология распознавания голоса входила в список стратегических. Со временем большие умы поняли, что само распознование речи - капля в море задач, которые необходимо решить для применения подобной технологии в полевых условиях. Тогда над разработкой специалисты бились сразу по двум фронтам - в области инженерии и лингвистики. Лингвисты изучали правильность произношения тех или иных фонем, а инженеры пытались автоматизировать систему распознавания, которая бы самостоятельно улучшала качество. Шли годы, и в начале 80 - х годов инженеры получили первые результаты своей работы: система кое-как работала, но процент расшифровки речи был очень далек от желаемого. Тут-то им и пришлось объединиться с лингвистами, дабы улучшить свою систему. Так уже в середине 90 - х годов совместными усилиями была создана первая в мире система голосового управления информационных терминалов DARPA Air Travel Information System, где человек мог запросить у терминала на английском языке «Рейсы из Нью-Йорка в Вашингтон» и получить необходимые данные. Работало это все благодаря тому, что программа автоматически выделяла ключевые слова и на их основе формировала запрос. Также в середине 90 - х годов были совершены попытки внедрения речевой технологии в IT - индустрии. В мобильные телефоны была добавлена новая опция, позволяющая осуществлять вызов абонента с помощью голосового набора. Но работала технология откровенно плохо, зачастую вынуждая диктовать информацию чуть ли не по слогам. Со временем увеличение вычислительных мощностей мобильных устройств и развитие самой технологии позволили создавать для них более сложные программы с функциями распознавания речи. Сегодня в виртуальном магазине Арр Store пользователь гаджетов на iOS может найти целую гору интересных приложений, которые бы расширяли возможности смартфона или планшета Apple. Кстати, именно в мобильных гаджетах Apple впервые была реализована функция Voice Control. Которая, как нетрудно догадаться из названия, позволяет управлять телефоном и плеером при помощи голосовых команд. Все сделано довольно просто, понятно и интуитивно: есть набор команд, из которых и следует выбрать, что тебе необходимо: набрать номер телефона Васи Пупкина, включить нужную песню, альбом.

Первое устройство распознавания речи IBM Shoebox songs by Foo Fighters» - получаешь воспроизведение всех треков этого исполнителя. Ничуть не хуже работает распознавание и на родном, великом - могучем языке. Разработчики Google тоже постарались для мобильной индустрии, сделав приложение для голосового поиска в Интернете - Google Voice Search, которое также поддерживает русский язык. Кстати обработка запроса в данном приложении выполняется не на мощностях мобильного устройства, а на удаленном сервере. Приложение записывает произнесенную фразу и тут же отсылает всю информацию на сервер, где запрос обрабатывается и высылается обратно с уже готовыми результатами поиска. После того как Apple купила компанию Siri, она собирается усовершенствовать функцию голосового поиска в новой версии мобильной операционной системы iOS 5. Диктовать телефону долгую речь, которую он без труда будет переводить в текст для SMS или электронной почты, должно быть весьма удобно. А там, глядишь, и виртуальные клавиатуры больше не понадобятся.

На первый взгляд процесс распознавания речи прост и понятен. Но на самом деле это очень сложная комплексная система, не ограниченная обработкой информации на облачном сервере или примитивным сравнением с заранее записанными предложениями. Процесс распознавания речи разделен на несколько этапов, начальным из которых является оцифровка. На этом этапе входящий аудиосигнал с микрофона записывается и разбивается на очень маленькие по времени фрагменты - фонемы для дальнейшей обработки. Для каждого фрагмента записывается дополнительная информация его характеристик, а на этапе записи информационных характеристик каждый производитель применяет различные методы. Оцифровка звукового сигнала выполняется с помощью специального устройства, называемого аналого-цифровым преобразователем, который периодически измеряет уровень входного сигнала и записывает результаты измерений. Набор таких значений и есть оцифрованный входящий сигнал. Также на этапе оцифровки звуковой сигнал проходит стадию подавления различных внешних шумов с помощью специальных шумоподавляющих фильтров. Самые сильные шумовые помехи возникают на низких частотах, а как известно, человеческая речь звучит на средних и высоких частотах, поэтому заранее известный низкочастотный шум отрезается. После оцифровки и удаления шумов программа начинает изучать фонемы и соединять их в возможные варианты слов для дальнейшего сравнения с уже известными программе словами, фразами и предложениями. Собственно, так программа и понимает то, что говорит пользователь. Полученный результат может отображаться текстом на экране или будет воспринят в качестве команды к действию. Но как программа может определить наиболее точный вариант из сказанного нами, когда мы говорим не одно или два слова, а целую фразу? Современные системы распознавания речи содержат в себе специальные системы моделирования, которые с помощью математических вычислений и применения теории вероятности способны определить наиболее точный вариант. Принцип работы этих методов заключается в том, что они обрабатывают уже оцифрованную информацию и с помощью сложных математических вычислений извлекают все скрытое в ней. Проще говоря, из сказанного человеком предложения они выбирают основные слова для запуска определенной команды. Наиболее распространенной считается скрытая модель Маркова, в которой каждая фонема представляет звено цепи, из которых и складывается целое слово. Программа пытается построить слова из этого конструктора, и каждой фонеме присуждается число вероятности ее употребления. Далее программа пытается выстроить логические цепи из этого хаоса фонем, так впоследствии и получится предложение. Нетрудно догадаться, что процесс этот чертовски сложен, и, на данном этапе, далеко не идеален. Так что в случае ошибки или неправильного распознавания сказанной команды неторопись бить ногой системный блок и винить разработчиков в совершенной бесполезности скачанной тобой программы. По сравнению со скрытой моделью Маркова, модель нейронной сети еще более сложна и запутана. Эта система состоит из огромного количества функционирующих простых процессоров с множеством связей, благодаря чему она может с легкостью «вытащить» все данные из избыточной информации. В 50 - х годах эту модель хотели окрестить искусственным интеллектом, однако мечты об этом невероятно мощном инструменте развеялись, как пасмурная погода жарким летом. Одной из особенностей данного метода было то, что нейронные сети обладают способностями к самообучению - сеть самостоятельно учится распознавать необходимые объекты. Далее, в соответствии с характеристиками, они группируются в классы. Принцип работы заключается в том, что сеть, состоящая из множества простых процессоров, работает с полученными данными после их оцифровки, принимая уже обработанные данные и корректируя их. После этого результат сравнивается с другими полученными данными и выбирается вариант, наиболее подходящий для ответа. Естественно, какой бы сложной и уникальной ни была система распознавания речи, она не может быть идеальной. Однако разработчики всеми силами пытаются выловить наиболее часто возникающие проблемы и как можно быстрее их устранить. В остальном все зависит от пользователя. Для того чтобы система работала безукоризненно,необходимо произносить команды четко и громко, избегая внешних шумов, давая системе максимальную возможность их корректного распознавания. Еще одной ключевой проблемой становится совершенно разное произношение одного и того же слова как разными людьми, так и одним и тем же человеком в различных ситуациях. Дополнительные неудобства возникают из-за произвольных интонаций, ударений, нестрогой структуры фраз, пауз, повторов. Продолжать разговор о фонетических особенностях и дефектах человеческой речи можно бесконечно.

Развитие программ голосового управления

Именно с начала 90 - х годов прошлого столетия.с развитием всей индустрии инфокоммуникационных технологий, и стали появляться первые коммерческие программы распознавания речи. Компания Dragon System в 1990 году выпустила первую систему преобразования устной речи в письменную - Dragon Dictate, которая была способна распознавать 30 тысяч слов. Именно Dragon Dictate и послужила примером для наших отечественных разработчиков программ вроде «Горыныча», «Комбата» и «Диктографа». Правда, плоды трудов соотечественников на нашем родном языке работали не так хорошо, как хотелось бы, но это тема для отдельного разговора.

Dragon Dictate позволяла запускать при помощи голоса приложения Windows, управлять их работой в командном режиме, а также надиктовывать текст. Программа предварительно обучалась пользователем: нужно было по нескольку раз проговаривать в микрофон фразы, которые появлялись на экране. Причем после установки и обучения программы необходимо было еще пройти дополнительный курс обучения - на этот раз уже для пользователя. Первые коммерческие программы уже хоть как-то умели понимать человека, но до совершенства им было далеко. Наконец в 2001 году SpeechWorks Software и Intervoice Hardware для компании Amtrak, которая занималась обслуживанием железнодорожных пассажиров, создали первый в своем роде программный продукт - «Джули», стоимостью 4 миллиона долларов. Эта программа - «виртуальный агент», которая по телефону сообщала расписание поездов, время их прибытия и отправления, а также позволяла брони - Схема простой нейронной сети.

До этого компания Amtrak использовала тоновую систему справки, которая очень не нравилась клиентам компании.

В недалеком 2004 году достижения человечества в области речевых технологий были относительно малы, однако именно в этом году, в связи с быстрым развитием мобильных технологий, разработчикам пришла в голову идея создания свободного голосового сервера Google под названием G00G - 411. Свою работу сервис начал в 2007 году, предлагая простой и удобный набор функций: вы звоните, спрашиваете простую информацию, например, номер телефона учреждения, и немедленно получаете ее - причем совершенно бесплатно. Проект G00G - 411 стал стартовой точкой для начала создания огромного свода голосовых данных, в дальнейшем открыв перед разработчиками еще большие возможности развития области речевых технологий. А вот самой удачной системой речевого управления компьютером на сегодняшний день считается, как ни странно, стандартный голосовой интерфейс Windows 7. Предыдущая версия функции распознавания речи появилась в Windows Vista в 2006 году, однако в «семерке» голосовое управление довели до ума, оно стало более функциональным и получило ряд дополнений. К сожалению, все это доступно лишь людям, говорящим на английском, французском, испанском, немецком, японском и китайском языках. Компания Microsoft начала разработку в сфере речевых технологий в 1993 году. Разработчики вели исследования по распознаванию речи и преобразованию текста в речь, что в конечном итоге привело компанию к разработке Speech API, так называемого «речевого движка». Speech API можно рассматривать как интерфейс, который связывается с приложениями для распознавания речи. Для управления голосом в Windows 7 используется Microsoft Speech Recognizer. Первая версия Speech API была выпущена ещё в 1995 году и уже была встроена в Windows 95 и Windows NT 3.51. Каждый год разработчики совершенствовали свой продукт и выпускали новую версию SAPI. Последняя версия была выпущена в 2000 году, ей стала SAPI 5.0, которая уже работала с комплектом офисных приложений Office ХР с поддержкой речевого ввода и управления. Финальным релизом версии стала та самая SAPI 5.4, которая сегодня поставляется вместе с расширенной версией Windows 7.

Будущее голосового управления

Голосовое управление проникло во все сферы технологической деятельности человека и добралось даже до индустрии компьютерных игр. В 2008 году нам посчастливилось увидеть две игры с модным интерфейсом голосового управления.

Игра под названием SOCOM, представленная компанией Sony Computer Entertainment America, по-настоящему порадовала своим взаимодействием с игроком. Второй релиз был от компании Ubisoft - Tom Clancys End War. В ней пользователь может примерить на себя роль генерала, отдающего устные приказы на поле боя. Обе игры стали прародителями жанра компьютерных игр с голосовым управлением.Увы,несовершенство технологии быстро свело на нет затею выпускать подобные игры. Сегодня технология распознавания речи является одной из наиболее перспективных в мире. В первую очередь разработчики видят необходимость ее развития для людей с ограниченными возможностями. Так, на одной конференции, посвященной данной теме, была представлена программа, позволявшая рисовать без использования рук. Вполне возможно, что в скором времени мы сможем забыть о клавиатуре и мыши, которые заменит микрофон и программа для распознавания речи. Но если принимать во внимание тот факт, что за 35 лет жизни индустрии ПК удобнее мышки и клавиатуры никто так ничего и не придумал, надеяться, что в ближайшие годы революция голосового управления все же случится, вряд ли стоит.

Оцените статью: Поделитесь с друзьями!

smages.com

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *