Естественная речь продвигается на настольные ПК, но не как основное направление

 

Прогнозы технологий будущего обычно пронизывает идея взаимодействия с компьютером с помощью речи. Однако, как бы мы порой ни хотели сообщить своему компьютеру все, что мы о нем думаем, основная технология распознавания речи до сих пор ограничена недостаточной мощностью ПК, высокими ценами и необходимостью... разговаривать... как... робот.

При тестировании в PC Week Labs, когда NaturallySpeaking не смог определить значения слова по смыслу предложения, простое высказывание “исправить это” привело к выдаче окна с вариантами

 

Но появился NaturallySpeaking фирмы Dragon Systems  -  первый пакет распознавания речи для настольных ПК, который воспринимает непрерывную речь, давая возможность пользователям быстро и точно диктовать текст компьютеру. В отличие от него, ПО дискретного распознавания речи типа DragonDictate фирмы Dragon Systems, VoiceType корпорации IBM и Voice for Windows фирмы Kurzweil Applied Intelligence требует, чтобы говорящий делал небольшие паузы между словами.

 

В Тестовом центре PC Week Labs проводилось тестирование бета-версии представленного в июне на выставке Comdex пакета NaturallySpeaking Personal Edition 1.0, выпуск которого намечен на III квартал. Мы обнаружили, что до культурной беседы с компьютером еще далеко, но сделан огромный шаг вперед в области распознавания речи, это  -  первый продукт, делающий технологию жизнеспособной на настольных ПК.

 

Так означает ли это, что конечные пользователи вашей корпорации начнут болтать со своими компьютерами в ближайшем будущем? Видимо, нет.

 

Распознавание речи должно пройти длительный путь, прежде чем оно будет успешно внедрено во все приложения. NaturallySpeaking  -  хороший старт, но нам бы хотелось, например, иметь возможность непосредственно начитывать текст в любимый текстовый процессор. Возможность преобразования текста в речь также была бы весьма полезной для пользователей с ослабленным зрением.

 

Цена тоже является лимитирующим фактором  -  при стоимости $695 на одного пользователя NaturallySpeaking будет непомерно дорогим для всех, кроме мест, более всего требующих диктовки (таких, как лечебные учреждения или конторы адвокатов). Возможность создавать гостевые профили помогла бы возместить стоимость продукта и увеличить его полезность в корпоративных условиях.

 

Но, учитывая последние успехи в технологии, мы даем пять лет на то, чтобы распознавание естественной речи стало так же широко внедряться, как и графический интерфейс пользователя.

 

NaturallySpeaking превращает ПК класса Pentium с Sound Blaster-совместимой звуковой платой, работающий под управлением Windows 95 или Windows NT, в мощную машину для диктовки. В прошлом распознавание непрерывной речи требовало систем класса рабочих станций или выше и аппаратного обеспечения DSP (Digital Signal Processor  -  процессор цифровой обработки сигналов).

 

Доброе слово

 

Со словарем на 30000 слов и резервным словарем на 230000 слов NaturallySpeaking может превратить почти каждого в профессиональную машинистку. Пакет NaturallySpeaking позволил нам быстро превратить свои мысли в текст: в среднем со скоростью порядка 70 - 80 слов в минуту. Мы смогли сохранить надиктованные данные в любом текстовом формате или в формате RTF.

 

Однако потребовалось некоторое время, чтобы подготовиться и начать работать. NaturallySpeaking является голосовым приложением, зависящим от говорящего и требующим, чтобы пользователи “натренировали” программу на узнавание своего голоса для более точного распознавания речи.

 

Но нам не надоедало тренировать: мы диктовали системе избранные отрывки из книг Дейва Барри “Дейв Барри в киберпространстве”, Артура К. Кларка “3001 год: последняя одиссея” и из речи Марка Твена о боязни сцены.Мы были настроены скептически в отношении точности распознавания речи в целом, но во время тестирования пакет NaturallySpeaking значительно превзошел наши ожидания при преобразовании речи в текст. Например, нас приятно удивило то, что NaturallySpeaking правильно распознает слова JavaScript и VBScript без каких-либо дополнительных тренировок.

 

Сразу после установки NaturallySpeaking точность составляла приблизительно от 85% до 90%. Примерно после недели тестирования мы получили точность распознавания 95% и выше.

 

NaturallySpeaking использует комбинацию лингвистической и акустической моделей, чтобы получить соответствие слов и список вариантов. Акустическая модель базируется на образцах речи, собранных у тысяч человек. По сложнейшим алгоритмам речь пользователя сравнивается с моделью, которая приводит к наилучшему акустическому соответствию слов. Лингвистическая модель базируется на анализе использования слов в контексте и получена при помощи анализа тысяч документов.

 

Во время диктовки, если NaturallySpeaking печатал неправильное слово, мы просто говорили “исправить это” (Correct that) и программа представляла нам приблизительно 20 вариантов, из которых мы выбирали. Трудное слово или фраза часто оказывались среди первых 10 предложений.

 

Чтобы сократить время тренировки, мы могли настроить словарь пакета, импортируя текстовый документ и выделяя слова, уникальные для данного документа.

 

Мы быстро перемещались по нашему документу, используя речевые команды типа “перейти к концу строки” (Move to End of Line). Мы получили доступ к командам меню, сказав “щелкни на File” (Click File) или “щелкни на Edit” (Click Edit), чтобы сохранить или отпечатать документ.

 

Онлайновая помощь NaturallySpeaking была особенно удобной для доступа к речевым навигационным командам. Фраза “Что я могу сказать?” (What can I say?) задействует окно онлайновой помощи NaturallySpeaking.

 

Херб Бетони (PC Week Labs)

 

Резюме для руководителей

 

Впервые перенося технологию естественной речи на ПК, NaturallySpeaking 1.0 фирмы Dragon Systems позволит экономить время тем, кто должен диктовать большой объем информации. Однако стоимость программы и ограниченные возможности помешают широкому внедрению.С методикой оценки можно ознакомиться

 

на узле: www.pcweek.com/reviews/meth.html.

 

Бета-версия NaturallySpeaking

 

Personal Edition 1.0.Фирма Dragon Systems, Ньютон,

 

шт. Массачусетс, (617) 965-5200,

 

Web-адрес: www.dragonsys.com.

 

+ Позволяет пользователям говорить естественным образом; легко устанавливается; обеспечивает высокую степень точности; работает на системах класса ПК, в отличие

 

от требовавшихся в прошлом систем класса рабочих станций.

 

-- Tребует значительных ресурсов аппаратного и программного обеспечения ПК и значительного времени на обучение; не может импортировать текст непосредственно в текстовые процессоры.

Версия для печати