Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
ПК и периферия: Статьи Новости компаний Решения

Панорама

СУБД ЛИНТЕР СОКОЛ: Будьте готовы к нагрузкам будущего уже сегодня!

Пока многие разработчики борются с наследием старого кода, мы создали будущее с чистого листа. На конференции …

Жизнь после Jira: как выбрать российскую платформу для управления разработкой

Jira — это проверенный временем и надежный инструмент, который стал стандартом де-факто для управления разработкой …

ViRush: управление на основе данных в условиях турбулентности

Конференция ViRush 2030, ежегодно проводимая компанией Visiology — основное событие в сфере BI на российском …

Молодой хостинг VS старый рынок: как UFO.Hosting использует свой возраст как преимущество

Хостинг — одна из тех ниш, где внешне мало что меняется. Даже несмотря на то, что это IT и технологии …

Продуктовой разработке пора уходить с Jira

Крупные компании продолжают использовать Jira по инерции — это решение создавалось для небольших команд, но его …

Говори компьютеру, что делать

(101)27`1997

Питер Коффи | 15.07.1997

Становится ли бесклавиатурное взаимодействие с компьютером повсеместным или, как и десять лет назад, до этого еще остается лет десять?

Бурное развитие информационных технологий привело к повышению производительности и снижению цен на аппаратное обеспечение. При этом, правда, все еще существуют области, состояние дел в которых описывается в весьма старых книгах.

Компьютеры способны реагировать на отдельные речевые команды, особенно если они состоят из специально подобранного набора слов, облегчающего распознавание.

В некоторых ситуациях при соответствующих ограничениях возможно автоматизированное распознавание отдельных слов во фразах. Так, в 1992 г. корпорация AT&T выпустила систему, которая могла выделять ключевые слова из общего контекста, например слово “коллективный” из фразы “я хочу сделать коллективный звонок”.

Системы для типичного пользователя, то есть не требующие предварительного обучения, способны работать со словарным запасом в несколько сотен слов. Однако ввиду отсутствия семантической обработки речи они легко ошибаются.

В настольных системах распознавание команд может быть неплохим дополнением к графическому интерфейсу при выполнении стандартных операций типа “сохранить”, “закрыть”, “выйти”. Тем не менее, представляя себе бесклавиатурный компьютер, мы видим все-таки нечто большее.

Словарь серьезной системы распознавания речи должен содержать не сотни, а тысячи и десятки тысяч слов и фраз. В отличие от распознавания команд такая система должна иметь дело с грамматическими вариациями слова - число, падеж, форма и время глагола.

Корпорация IBM демонстрирует логические способности своей системы VoiceType следующим тестом: “They are going to park their car over there” (“Они собираются припарковать свою машину в этом месте”). Когда эти слова произносятся, VoiceType в динамическом режиме обновляет семантическую модель предложения. Например, последнее слово “there” (“в этом месте”) может быть воспринято как “their” (“свой”, оба слова произносятся одинаково) с таким окончанием предложения: “припарковать машину в своем гараже”. Однако когда диктор произносит “period” (точка), VoiceType возвращается назад и заменяет слова, получая верный грамматический результат.

Вообще качество имеющихся систем распознавания речи определяется по двум параметрам - времени настройки системы для конкретного пользователя и степени распознавания непрерывной речи (или требуемой продолжительности пауз между словами).

Существующие сейчас системы более надежны при работе с отдельными словами (дискретная речь), чем с естественно произносимыми фразами и предложениями (непрерывная речь). Однако ни одна из них не обладает теми речевыми возможностями, о которых было написано столько фантастических романов.

Питер Коффи (PC Week Labs)

Модели распознавания речи

Команды

Распознается от нескольких десятков до нескольких сотен слов; реализация команд по сравнению с речью, для которой требуется распознавание тысяч слов, что повышает вероятность отказа.

Дискретная речь

Распознается речь с паузами между словами; гораздо проще для реализации, чем непрерывная речь.

Непрерывная речь

Распознавание естественной речи; необходимы мощный компьютер и значительное время настройки для получения приемлемой точности.

Печать

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Говори компьютеру, что делать

Комментарии