Тимоти Дик (PC Week Labs)
Тестовый центр PC Week Labs исследует перспективы и недостатки появляющихся технологий работы с речью
“Компьютер, запиши это сообщение. Открой браузер и свяжись с адресом www.pcweek.com. Просуммируй числа из этой колонки и сообщи мне результат”.
Используя Voice Xpress фирмы Lernout & Hauspie, пользователи смогут диктовать свои мысли, а также подавать команды на нормальном английском языке
Это не сцена из сериала “Star Trek”. Корректное распознавание речи и работа с естественными языковыми конструкциями долгое время требовали сказочно дорогостоящего оборудования и специальных приемов диктовки. Теперь их можно использовать с имеющимся программным обеспечением и той аппаратурой, которая стоит у нас на столах.
Ситуация кардинально изменилась за последние шесть месяцев. Три продукта распознавания речи - NaturallySpeaking Delux фирмы Dragon Systems, ViaVoice Gold корпорации IBM и Voice Xpress фирмы Lernout & Hauspie Speech Products USA - в ноябре были выдвинуты PC Week Labs в качестве кандидатов на получение награды Best of Comdex, что демонстрирует уровень развития данной технологии.
Посетители Comdex, очевидно, пришли к тому же выводу. Толпы зрителей наблюдали, как на стенде Dragon Systems один из разработчиков NaturallySpeaking диктовал системе произвольно выбранные газетные статьи. Ошеломленные посетители стали свидетелями того, как демонстратор Lernout & Hauspie отдал команду Microsoft Word “преобразовать следующие пять параграфов в таблицу” и получил от ПО в точности то, что требовалось. Продукты распознавания речи оказались настоящей сенсацией Comdex.
Диктовка
Навыки ясной и аккуратной диктовки были утеряны, когда пользователи начали самостоятельно печатать свои заметки. Но они вернутся по мере того, как люди начнут диктовать сообщения электронной почты блокнотному ПК в автомобиле по пути на работу или делать ручкой отметки в докладе и одновременно заносить свои устные комментарии в текстовый процессор.
Диктовка в чистом виде - это лишь один из видов работы, которую могут выполнять пакеты ViaVoice и NaturallySpeaking. Реализовав базовые технологии распознавания речи, системы IBM и Dragon Systems переносят фокус внимания на простоту использования и совместимость. (Обе системы используют схожие алгоритмы и, по нашим оценкам, обеспечивают сравнимое качество распознавания речи.)
В ноябре Dragon Systems начала поставлять по цене $169 NaturallySpeaking Preferred - расширенную версию своего исходного продукта NaturallySpeaking. Данная версия является первым продуктом, подходящим для широкого использования.
С ее помощью можно диктовать тексты любым Windows-приложениям, воспроизводить записанную речь для коррекции текста, а также зачитывать с помощью NaturallySpeaking документы и электронные таблицы, используя синтезированный голос.
В отличие от конкурирующей системы ViaVoice корпорации IBM, в предыдущих версиях NaturallySpeaking пользователю приходилось диктовать текст в специализированном текстовом процессоре, входившем в состав данного ПО, а затем переносить его в нужный текстовый процессор.
Как ViaVoice, так и NaturallySpeaking предоставляют специальную поддержку редактора Word корпорации Microsoft, позволяющую диктовать текст сразу в документы Word.
Система ViaVoice Gold корпорации IBM (использующая голосовые команды), поставки которой также начались в ноябре, включает в себя пакет голосовой подачи команд Command and Control, благодаря чему ViaVoice сможет выполнять несложную навигацию и выбор из меню Windows-приложений.
ViaVoice Gold ($149) позволяет осуществлять диктовку в любых приложениях (в ViaVoice можно использовать только Microsoft Word или текстовый процессор разработки самой компании), а также упрощает исправление ошибок, поскольку в нем можно отдавать команды не только с клавиатуры, но и голосом.
ViaVoice и ViaVoice Gold могут, как и NaturallySpeaking Preferred,воспроизводить продиктованный текст голосом пользователя, а также читать любой текст синтезированным голосом.
По собственному опыту
Проработав несколько месяцев с NaturallySpeaking и ViaVoice в Тестовом центре PC Week Labs, мы можем исходя из собственного опыта дать консультацию относительно действительных способностей этих двух пакетов.
Разобравшись с проблемами, связанными с распознаванием речи (см. список потенциальных проблем), мы к удивлению своему обнаружили, что оба пакета в основном соответствуют рекламным обещаниям. Что касается диктовки обычных документов на английском языке, таких, как бизнес-отчеты и сообщения электронной почты, то распознавание речи на ПК стало наконец долгожданной реальностью.
В другой области - навигации и управлении Windows-приложениями посредством голосовых команд - возможности, предлагаемые линиями продуктов ViaVoice и NaturallySpeaking, существенно ограничены.
Основная проблема заключается в том, что, хотя оба пакета и могут правильно вводить продиктованный текст, ни тот, ни другой не имеет ни малейшего понятия о том, что значат те слова, которые они печатают. (После того как звуки проидентифицированы, оба пакета не идут дальше простого использования статистических таблиц общеупотребительных выражений, состоящих из двух-трех слов, делая выбор между словами с похожим звучанием.) В результате словари команд необычайно ограничивают возможности пользователя, требуя при этом точности и синтаксической адекватности.
Допустимые команды повторяют структуру меню приложений (File, Open и так далее) либо частично дублируют специфические для данного приложения команды. Управление ПК с помощью данных продуктов в какой-то степени может помочь разве что инвалидам, для остальных оно превращается в бесполезное упражнение.
Дать пользователям возможность управления своими ПК с той же легкостью, с какой они разговаривают с коллегами по работе, безусловно, непростая задача. Однако она не является неразрешимой, что и продемонстрировала фирма Lernout & Hauspie, выпустив в начале октября систему VoiceCommands.
Это ПО продвинулось в данной области значительно дальше продуктов компаний Dragon Systems и IBM. Представляя собой естественный языковой командный интерфейс к Microsoft Word 95 и 97, данный продукт полностью отступает от внутренней структуры команд Word ради реализации собственной, необычайно гибкой схемы.
VoiceCommands реализует большую группу команд Word в рамках своего естественного языкового интерфейса, воспринимающего команды типа “изменить шрифт последнего предложения на Arial” или “сложить эту колонку цифр”.
Хотя большинство команд Word погребено под несколькими уровнями меню или спрятано за неизвестными “горячими” клавишами, VoiceCommands делает эти возможности вполне доступными для тех, кто имеет грубое представление о возможностях Word. Для опытных же пользователей это первый продукт, который делает использование словесных команд более быстрым по сравнению с традиционным методом работы.
Lernout & Hauspie пока не выпустила на рынок систему распознавания слитной речи общего назначения, однако в начале года фирма приступит к выпуску многообещающего продукта под названием Voice Xpress (см. рисунок), объединяющего систему распознавания слитной речи с возможностями VoiceCommands.
Что впереди?
Распознавание речи в скором будущем получит значительное распространение. Все три ведущие компании активно выдают лицензии на свои технологии независимым производителям.
В грядущих проектах распознавание речи будет осуществляться на аппаратном уровне. Нам следует готовиться к появлению голосовых систем навигации для автомобилей, образовательного ПО, помогающего детям научиться читать, банкоматов, активизируемых голосом, систем, обеспечивающих перевод с иностранных языков в реальном времени, а также персональных информационных систем с голосовыми возможностями.
Почему система не работает?
Системы распознавания речи сложны и необычайно ресурсоемки. Убеди- тесь, что вы не допускаете общих ошибок типа тех, что перечислены ниже.#Недостаточно мощное аппаратное обеспечение. Система на базе 150 МГц про- цессора Pentium с 32 Мб ОЗУ является минимальной конфигурацией для работы под Windows 95. Пользователям NT необходимо дополнительно от 16 до 32 Мб ОЗУ.
- Плохие микрофоны. Настольные, прикрепляемые или встроенные микрофоны недостаточно хороши. Необходим микрофон в комплекте с наушниками.
Некоторые производители, включая Andrea Electronics (www.andreaelectronics. com), предлагают высококачественные микрофоны, отсекающие шумы.
- Сильный акцент говорящего. Обучение продукта значительно помогает в решении
данной проблемы, однако производители предупреждают, что люди с сильным акцентом могут столкнуться с большими трудностями.
- Бормотание. Кроме хорошего микрофона ничто так не помогает правильному распознаванию, как ясная и плавная речь.
- Переполненные офисы. Если вас раздражают разговоры по теле- фону, которые ведут ваши коллеги, то что же будет, когда они начнут диктовать документы? Настоятельно рекомендуем отгородиться дверью.