Голосовой интерфейс

Материал из Циклопедии
Перейти к навигации Перейти к поиску
Что такое голосовой интерфейс 📡 и где его используют? // LeadStartup (15 февр. 2021 г.) [3:42]
Голосовой интерфейс для оплаты товаров и услуг // Voximplant Russia (19 февр. 2019 г.) [36:02]

Голосовой интерфейс («голосовой интерфейс пользователя») — возможность взаимодействия человека и компьютера для запуска автоматизированного сервиса или процесса.

Общая информация[править]

Ранее контролировать устройство при помощи голоса было возможно только в научной фантастике. До недавнего времени считалось областью искусственного интеллекта. Тем не менее, с развитием технологий ГИ стал всё более распространённым, человек всё чаще пользуется преимуществами этой бесконтактной технологии.

Однако, использование ГИ имеет свои сложности. Люди с малой долей терпения относятся к «машине, которая не понимает». Следовательно, ГИ должен работать почти безошибочно, а значит, стабильно реагировать на входные данные, иначе пользователи не будут применять ГИ, либо ГИ станет объектом насмешек. Для того, чтобы создать стоящий голосовой интерфейс, необходимы междисциплинарные знания в информатике, лингвистике и психологии — дорогостоящие навыки, которые нелегко приобрести. Даже при наличии продвинутых средств разработки, создавая эффективный ГИ, нужно отдавать себе отчёт в том, какие задачи будет выполнять ГИ, и на какую целевую аудиторию он ориентирован. Чем лучше ГИ будет подходить под когнитивную модель задания пользователя, тем легче будет использовать ГИ без или с минимальным обучением, что повысит его эффективность и степень удовлетворённости пользователей.

Очень важны особенности целевой аудитории. К примеру, создавая ГИ для широкой публики, нужно уделить особое внимание простоте использования и большому количеству инструкций и подсказок для начинающих. В то время, как придумывая ГИ для небольшой группы продвинутых пользователей (в том числе для техподдержки), нужно больше думать о продуктивности, чем о подсказках и инструкциях. Такие приложения должны систематизировать обработку вызовов, минимизировать количество подсказок, устранить ненужные повторения, использовать принцип «смешанной инициативы», который позволит звонящему вносить разные типы информации в одном высказывании и в любом порядке или комбинации. Иными словами, ГИ должен быть специально создан для конкретных технологических процессов, которые нужно автоматизировать.

Голосовой интерфейс подойдёт не для каждого технологического процесса. В общем, чем более многогранны запросы и операции, тем сложнее их будет автоматизировать, и тем большая существует вероятность, что ГИ не подойдет для использования широкой публикой. В некоторых случаях, автоматизация процесса в принципе невозможна, поэтому единственный выход — использование консультанта-человека. К примеру, будет очень сложно автоматизировать горячую линию юридической поддержки. С другой стороны, ГИ прекрасно подойдёт для обработки быстрых и однообразных операций, таких как изменение статуса заказа, заполнение графы «время» или «стоимость», или перевод средств между счетами.

Дальнейшее использование[править]

В карманных устройствах, таких как КПК или мобильные телефоны, для ввода информации используются маленькие кнопки, которые либо встроены в гаджет, либо являются частью интерфейса с сенсорным экраном, как на Apple iPod Touch или iPhone. Постоянно нажимать на кнопки таких девайсов утомительно, к тому же может привести к ошибкам, поэтому лёгкий в использовании, точный и надёжный голосовой интерфейс мог бы стать глобальным прорывом в использовании карманных устройств. Кроме того, ГИ мог бы стать эффективным в использовании ноутбуков и стационарных компьютеров, так как решил бы проблемы, связанные с использованием клавиатуры и мыши, в том числе травмы, связанные с постоянными нагрузками, такие как синдром запястного канала, а также устранил бы препятствие в виде низкой скорости печати, что важно для начинающих пользователей. Более того, если вы используете клавиатуру, то это предполагает, что постоянно находитесь перед монитором, в то время, как голосовой интерфейс позволяет вам свободно передвигаться, так как голосовой ввод информации совсем не подразумевает, что вы будете смотреть на клавиатуру.

Такие усовершенствования буквально изменят дизайн устройств, а также полностью преобразят взаимодействие с ними. Экраны мобильных устройств станут больше, так как клавиатура больше будет не нужна. На сенсорных аппаратах будет не нужно делить дисплей на содержимое и на экранную клавиатуру, а значит, информацию можно будет просматривать в полный экран. Ноутбуки фактически уменьшатся вдвое, так как клавиатура будет ни к чему, все внутренние компоненты поместятся за дисплеем, следовательно, ноутбук просто превратится в планшетный компьютер. Стационарный компьютер состоял бы из системного блока и монитора, а место на рабочем столе, занимаемое простой клавиатурой, а также клавиатурой выдвигаемой, освободилось бы. Пульты дистанционного управления телевизором, панели управления на десятках устройств — от микроволновой печи до копировального аппарата — также стали бы не нужны.

Тем не менее, пришлось бы преодолеть большое количество проблем, чтобы претворить ГИ в жизнь. Во-первых, ГИ должен быть настолько хорошо устроен, чтобы различать голосовые команды и обычный разговор; в противном случае будет зафиксирован неверный ввод данных, и устройство отреагирует ошибочно. Стандартная реплика «Компьютер!» как говорят персонажи известной научно-фантастических киноэпопеи «Звёздный путь», могла бы активировать ГИ и подготовить устройство принять информацию того же говорящего. Предположительно, ГИ мог бы иметь человеческий облик: голос или экранный персонаж, который бы, например, мог отвечать и поддерживать диалог для уточнения запроса пользователя.

Во-вторых, ГИ мог бы взаимодействовать с высокотехнологичным программным обеспечением, чтобы тщательно обработать и найти (получить) информацию, или осуществить действие в соответствии с преференциями пользователя. К примеру, если вам нужна информация из определённой газеты и в виде списка, то вы можете сказать: «Компьютер, найди информацию о прошедшем вчера наводнении на юге Китая», а в ответ ГИ, учитывая преференции, «найдёт» факты о «наводнении» на «юге Китая» из нужного источника, преобразует в форму списка и представит на экране или в звуковой форме, приведя цитату. Таким образом, будет необходим точный механизм распознавания речи, с некоторой долей искусственного интеллекта по части устройства ГИ.

См. также[править]

Ссылки[править]

 
Общие определения
Анализ текста

Сегментация текста[en] • Частеречная разметка • Поверхностный синтаксический анализ[en] • Обработка сложных слов[en] • Извлечение коллокаций[en] • Стемминг • Лемматизация • Распознавание именованных сущностей[en] • Разрешение кореферентности • Анализ тональности текста • Извлечение концептов[en] • Синтаксический анализ • Разрешение лексической многозначности • Извлечение терминологии[en] • Извлечение информации • Идентификация языка • Определение регистра[en]

Реферирование[en]
Машинный перевод
Идентификация
и сбор данных
Тематическая модель
Рецензирование
Интерфейс
на естественном языке
[en]
 
Ядро

Гибридное Микро Модульное Монолитное Нано Экзо Драйвер Пространство пользователя Область пользователя

Управление
процессами

Режимы (супервизора реальный защищённый) • Прерывание Кольца защиты Переключение контекста Многозадачность (вытесняющая кооперативная мультипрограммирование) • Процесс Управление процессом Планировщик задач Многопоточность

Управление
памятью

Защита памяти Сегментная адресация памяти Страничная память Менеджер виртуальной памяти Ошибка сегментации Общая ошибка защиты

Прочее

Загрузчик ОСAPIVFSКомпьютерная сетьGUIГолосовой интерфейсСлой аппаратных абстракций (HAL)