Статья только в электронной версии журнала

Статья только в электронной версии журнала

     ОБЗОР

Общаться с пользователем Cool C может, но учить его придется долго

Выпуском первой версии своего пакета Cool C Talking Computer (что переводится как "говорящий компьютер") фирма Cool Conversations наглядно продемонстрировала, насколько далеко продвинулась технология распознавания речи и как много еще предстоит сделать в этом направлении.

Cool C - одно из первых приложений, использующих механизм Microsoft Speech Engine для распознавания речи и общения с пользователем. Для его работы требуется персональный компьютер с процессором семейства Intel Pentium, ОЗУ емкостью 128 Мб, 110 Мб свободного пространства на жестком диске, операционная система Windows NT (или более новая), а также колонки с микрофоном. И конечно же на компьютере должен быть установлен механизм Microsoft Speech Engine, входящий в комплект Windows XP (для тех, кто пользуется прежними версиями операционной системы, фирма включила этот механизм в установочный диск Cool C).

В eWeek Labs было проведено тестирование двух продуктов: приложения Cool C Talking Computer ценой 19 долл. на каждого пользователя (в нем применены речевые технологии для голосового ответа на устные вопросы клиента), и модуля Cool C Read Write, преобразующего произносимые слова в текст. Выпуск Cool C Talking Computer начался в феврале, а модуль Read Write появился в продаже в марте.

Установка приложения Cool C Talking Computer и модуля Read Write прошла легко и просто, а вот обучение Microsoft Speech Engine распознаванию слов вылилось в целую эпопею. Когда Cool C был инсталлирован, нам последовало предложение запустить мастер обучения речи Voice Training Wizard. После этого мы не менее получаса читали перед микрофоном текст, зачастую повторяя одну и ту же фразу по нескольку раз, чтобы приложение научилось распознавать нюансы операторского голоса.

Некоторую базу звуков предоставляет Microsoft, однако для того чтобы Cool C надежно распознавал речь, необходима тренировка. Такая подготовка отнимает немало времени и сил, поэтому можно смело сказать, что должная точность распознавания речи будет достигнута не ранее, чем через неделю постоянного пользования приложением. Впрочем, обучение других подобных продуктов времени отнимает не меньше.

Чтобы проверить способность приложения распознавать произносимые слова и преобразовывать их в текст, мы начитали в модуль Cool C Read Write первый абзац из книги Нортона Джастера "The Dot and the Line: A Romance in Lower Mathematics" ("Точка и линия: роман из элементарной математики"). Делалось это через гарнитуру LVA-7330 фирмы Labtec, сочетающую наушники с микрофоном.

Первый тестовый абзац "жила-была утонченная прямая линия, которая безнадежно влюбилась" Cool C сначала перевел как "не поддерживаемый в DOS и утонченный, тест линии состояния близок к лоту".

Изрядно потрудившись над обучением механизма Microsoft Speech Engine, мы все-таки добились того, чтобы способности Cool C правильно распознавать слова и фразы повысились. Хотя 100-процентной точности нам и близко достичь не удалось, но после двухдневного тестирования приложение правильно переводило в текст не менее 65% всего произносимого. В целом же чем больше времени затрачивается на обучение Microsoft Speech Engine, тем точнее распознается речь. Правда, более требовательным профессионалам, которым приходится много и часто наговаривать тексты, лучше обратить внимание на программы корпоративного класса наподобие Dragon Naturally Speaking фирмы Scansoft.

Как и большинство других приложений распознавания речи, Cool C довольно успешно справляется с озвучиванием текста. В ходе тестирования новое приложение безо всяких проблем читало Web-страницы, сообщения электронной почты, документы Word.

Интеграция же с Microsoft Speech Engine особенно наглядно проявилась в процессе тестов на взаимодействие с другими программами. Мы, к примеру, могли "поговорить" со своим тестовым клиентом - в определенных рамках, конечно, - о погоде, узнать дату и время, прояснить для себя ситуацию на Капитолийском холме.

Не поняв вопроса, Cool C, чтобы не прерывать хода беседы, отпускает шутку. Базу данных можно расширять, добавляя в нее собственные варианты ответов на различные вопросы.

Со старшим автором Энн Чен можно связаться по адресу: anne_chen@ziffdavis.com.