Обзор

 

Качество распознавания доходит до 95%, но хорошая машинистка все же лучше

 

Известно, что удовлетворительная система распознавания речи, которая могла бы получить широкое распространение, пока не создана. Однако система диктовки ViaVoice корпорации IBM вполне может обеспечить многим пользователям существенное повышение производительности. Начало поставок пакета по цене $99 намечено на сентябрь.

 

Если ViaVoice не понял слово, он предлагает пользователю различные его варианты

За всю историю Тестового центра PC Week Labs это только второй случай тестирования продукта, который способен распознавать живую речь. Наши эксперименты показали, что пакет ViaVoice  -  это большой шаг вперед даже по сравнению с Personal Dictation System for OS/2 той же IBM, где слова нужно произносить со значительными паузами.

 

Если говорить о единственном сопернике в среде Windows 95 и Windows NT, системе NaturallySpeaking 1.0 ($349) фирмы Dragon Systems, то ViaVoice показал в тестах примерно такую же точность, зато его цена значительно ниже. (О тестировании бета-версии NaturallySpeaking см. в PC Week/RE, № 32, с. 43.)

 

Для большинства людей ViaVoice не сможет заменить клавиатуру. Так, в наших тестах он распознавал 85% речи, правда, после продолжительного “обучения” программы мы смогли достичь уровня 90 - 95%.

 

Но хотя последняя цифра выглядит впечатляюще, остающиеся 5% становятся причиной достаточно серьезных ошибок  -  от использования множественного числа вместо единственного до неправильного распознавания одного или двух слов, в результате чего вся фраза становится бессмысленной. Добавим к этому, что пакет работает только в своем собственном простом текстовом процессоре.

 

Что касается производительности, то следует отметить, что с помощью пакета можно диктовать от 70 до 80 слов в минуту. Однако этот показатель не включает время на коррекцию ошибок. Хорошая же машинистка может печатать с такой же скоростью, но без ошибок. Из этого следует, что ViaVoice подходит для людей, которые нуждаются во вводе больших массивов информации или кого раздражает процесс набора текста на клавиатуре.

 

Базовая настройка

 

Принципы работы ViaVoice и NaturallySpeaking примерно одинаковы. Оба они используют образцы звуков и анализ контекста. Однако некоторые различия пользователи все же обнаружат.

 

Настройка ViaVoice разделена на два сеанса. Первый сеанс столь же сух, как и воздух в Долине смерти, но в это время пользователь учится ставить голосом пунктуацию, чего не делает NaturallySpeaking. Второй сеанс заключается в чтении “Истории привидения” Марка Твена. Это долгая процедура, но результат стоит того.

 

Дальнейшую настройку можно провести во время работы. Несмотря на соблазн пользоваться клавиатурой при “обучении” системы образцам речи пользователя, нужно применять редактор ViaVoice. Если пакет не может распознать какое-либо слово, пользователю предоставляется небольшой список похожих слов и их производных.

 

Начав работать с ViaVoice, мы старались произносить слова чисто. Однако затем мы перешли на нормальную речь, что обычно происходит со всеми. Это оказалось довольно сложно, постоянно приходилось прерывать сеанс и пользоваться редактором.

 

Замечено, что первоклассные продукты могут поражать какими-то одними возможностями при том, что в них начисто отсутствуют другие. И здесь ViaVoice не является исключением. Так, IBM превзошла Dragon Systems тем, что ее пакет способен сохранять набранный текст в формате Microsoft Word 6.0 (и ViaVoice, и NaturallySpeaking могут сохранять документы в текстовом формате или RTF). Но на панели инструментов ViaVoice в отличие от NaturallySpeaking нет кнопки микрофона, которая четко обозначает начало и конец сеанса диктовки.

 

Требования к ресурсам компьютера у ViaVoice несколько выше, чем у NaturallySpeaking. Продукту IBM необходим ПК не слабее 150 МГц Pentium MMX или 166 МГц Pentium, тогда как его конкуренту достаточно 133 МГц Pentium. Требования к ОЗУ одинаковы  -  32 Мб при работе под Windows 95.         

 

      Майкл Кейтон

 

Резюме для руковолителей

 

Продукт ViaVoice 1.0 корпорации IBM  -  это значительный шаг вперед по сравнению с системами, распознающими отдельные слова: он редко ошибается и способен распознавать живую речь. Однако практическое применение он может найти только в сферах, где требуется ввод в компьютер большого объема информации.

 

Преобразует живую речь в текст; поддерживает вывод в формате Microsoft Word 6.0; невысокая цена; разумные требования к машинным ресурсам.

 

Длительная настройка; в эффективности явно проигрывает хорошей машинистке.

ViaVoice 1.0

 

Корпорация IBM, Сомерс, шт. Нью-Йорк

 

Телефон в Москве: (095) 940-2000,

 

Web-адрес: www.ibm.com.

 

Методика оценки: www.pcweek.com/reviews/meth.html.