Глядя вперед

Марк Л. Ван Нейм, Билл Кэтчингс

Компьютеры никогда не умели как следует обрабатывать голосовые данные. Несмотря на то что распознавание и понимание устной речи уже давно считается важной задачей компьютеров, а множество людей угрохали кучу времени и денег на реализацию этих технологий, число компьютеров, на которых работают программы с голосовым управлением, до сих пор ничтожно мало.

Марк Л. Ван Нейм, Билл Кэтчингс

В ближайшие несколько лет положение может измениться: три серьезные силы должны объединиться для решения этой проблемы и сделать распознавание речи ключевым элементом систем электронной коммерции - ведь именно здесь новые технологии могут достигнуть потрясающих результатов.

Первая сила - это рост мощности процессоров. Многие годы подключение к компьютерной программе средств распознавания речи требовало либо примирения с резким ухудшением качества ее работы, либо больших затрат на установку дополнительных вычислительных ресурсов. Сегодня, однако, появились ПК, мощности которых вполне хватает для запуска некоторых весьма серьезных приложений распознавания речи.

Мы, например, познакомились с такими продуктами, как Naturally Speaking фирмы Dragon Systems и Voice Xpress Plus фирмы Lernout & Hauspie. Оба они могут работать на общераспространенных моделях ПК в качестве интерфейсных программ для Word. Такая возможность немаловажна, ибо она подразумевает, что процессору вовсе не нужно тратить всю свою мощь на работу ПО распознавания речи. ПК может выделять остающиеся процессорные ресурсы как для функционирования приложений, которые применяются в качестве интерфейсов для этих распознавателей, так и для решения другой, не менее важной задачи - достичь понимания слов, только что “схваченных” системой.

Прогресс технологий распознавания и понимания речи представляет собой вторую силу, способствующую внедрению голосовых интерфейсов в электронную коммерцию. Недавно мы беседовали с Бобом Катником, исполнительным директором Lernout & Hauspie, и ознакомились с просто поразительными работами его фирмы в области понимания устной речи.

Ключом к решению этой проблемы является контекст. Для понимания речи программа должна знать значения слов в различных контекстах. Это, однако, не означает, что она обязана знать все возможные значения слова во всех возможных контекстах. Один из приведенных Катником примеров относился к богатому контексту таких специализированных приложений, как Photoshop. Понять фразу “Раскрась квадрат Pantone 235” совсем не просто. Разобраться же с предложением “А теперь попробуй Pantone 236” еще сложнее, ибо эта команда возникает в контексте с предыдущей. И тем не менее именно фразы такого типа захочет произносить пользователь Photoshop - и именно работе с такими типами предложений хочет научить Катник продукты Lernout & Hauspie.

Такие возможности весьма пригодились бы в онлайновом бизнесе. Представьте себе сайт, способный понимать вопросы вроде “Еще что-нибудь этого автора?” или “Нет ли у вас такого же, но с перламутровыми пуговицами?”. Чем чаще Web-узел будет позволять клиентам говорить на естественном языке, тем чаще они будут обращаться к нему.

Средства подобного рода, возможно, не столь существенны для большинства авторов и читателей PC Week - для нас не представляет никакого труда ввести запрос в онлайновую форму с клавиатуры. Web, однако, еще не достигла широких масс населения. Экономическая потребность в охвате этой группы потенциальных пользователей и есть последняя из сил, продвигающих голосовые технологии в электронную коммерцию. Многие люди, считающие интерфейс “укажи и щелкни” чем-то неестественным или пугающим, могут почувствовать себя гораздо комфортабельнее при работе с интерфейсом, управляемым голосом.

А такие интерфейсы могут появиться уже в ближайшие несколько лет. Добавьте к этому синтез речи, и вы легко представите себе Web-узлы, системы поддержки и приема заказов на которых заставляют пользователей чувствовать себя так, как будто они общаются с оператором-человеком, хотя на самом деле большую часть времени их собеседником является программа (а когда такая система сталкивается с затруднениями, она запросто может пригласить подключиться к разговору с клиентом какого-нибудь своего “начальника” из плоти и крови).

Вам стоит внимательно следить за этими технологиями (и планировать на ближайшие год-два хотя бы пилотные проекты), ибо они должны изменить лицо электронной коммерции.

К Марку Л. Ван Нейму и Биллу Кэтчингсу можно обратиться по адресам: mark_van_name@zd.com и bill_catchings@zd.com.