ОБЗОРЫ
Голосовым порталам (ГП) Чуть больше года, тем не менее их бурное развитие в США, а с недавних пор и в Европе заставляет более внимательно присмотреться к этому направлению информационных технологий, названному специалистами V-Commerce (от voice commerce, см. PC Week/RE, N 14/2001, с. 32).
Что это такое?
Предназначение ГП - предоставлять людям доступ к ресурсам Интернета и другим хранилищам информации. С их помощью можно прослушивать новости, дорожные сводки, прогноз погоды, курс акций; бронировать места в ресторанах, театрах, гостиницах, самолетах, поездах; управлять голосовой почтой. Фактически все, что вы можете сделать только при помощи голоса и слуха, возможно реализовать в конкретных вариантах ГП.
Принцип работы с ГП интуитивно прост и обычно не требует какого-либо предварительного изучения и даже знания о существовании компьютеров и Интернета. Достаточно помнить только одно - номер телефона, позвонив по которому вы сообщаете компьютерному оператору, какая информация вас интересует или какую услугу вы хотите получить. Далее он, используя свою собственную поисковую систему, находит требуемые данные и передает их вам либо голосом, либо в виде SMS-сообщения. Ответы на наиболее часто задаваемые вопросы, типа прогноза погоды или спортивных новостей, хранятся в специальной базе данных, и их извлечение занимает считанные секунды.
Допустим, путешествуя в автомобиле, вы решили перекусить. Недолго думая набираете номер известного вам ГП и произносите ключевое слово “рестораны”. Голос диктора, записанный на пленку или синтезированный, попросит уточнить, какого типа ресторан, в каком городе и с какой кухней вас интересует. После того как будет получен ответ, вам зачитывают адреса ближайших ресторанов, цены, услуги и т. д. При желании можно заранее забронировать столик и заказать ужин. Чтобы вернуться в главное меню и поискать еще что-нибудь, необходимо сообщить об этом системе словами “главное меню” или “назад”.
Историческая справка
ГП впитали в себя множество технологий: синтез и распознавание речи, телекоммуникации, Интернет, базы данных, поисковые механизмы, искусственный интеллект, IVR (Interactive Voice Response, интерактивное речевое взаимодействие - тональный режим работы номеронабирателя телефона играет роль клавиатуры, позволяя запрашивать информацию). По отдельности каждая из них хорошо известна, но в совокупности, воплотившись в виде ГП, они существуют недавно, с момента появления первых прототипов голосовых порталов, поэтому истории как таковой у ГП нет и она создается буквально у нас с вами на глазах.
Прародителями ГП считаются две диаметрально противоположные по принципу работы системы. Первая, построенная на основе IVR, применяется, когда достаточно заранее определенного меню; перемещаясь по нему, клиент проводит транзакции и получает информацию. Вторая же решает более интеллектуальные задачи, в которых нельзя запрограммировать все возможные сценарии взаимодействия с пользователем, и поэтому приходится прибегать к услугам телефонистов. Яркий пример первого подхода - автоматическая служба сервиса сотовых компаний, а второго - справочная информационная система АО МГТС 009. Часто два этих подхода объединяют, оставляя клиенту возможность вызвать оператора в случаях, когда ресурсов системы IVR недостаточно либо необходимо получить справку.
За рубежом IVR-системы и команды операционистов постепенно заменяются на ГП, привнесшие в телефонию легкость и интуитивность, доступ к передовым информационным технологиям (в первую очередь к Интернету) и снижение себестоимости. Отметим, что для совместимости с предыдущими технологиями во всех развертываемых сегодня ГП предусмотрена возможность навигации при помощи IVR. Более полно описываемую эволюционную замену иллюстрируют врезки, на которых приведены положительные и отрицательные черты как традиционных подходов, так и наступающей им на пятки технологии ГП.
Сегодняшний день
Днем рождения ГП можно считать 22 мая 2000 г., когда в качестве международного стандарта был одобрен язык диалоговой разметки VoiceXML. Именно с этого момента в США начал значительно увеличиваться рынок речевых технологий.
Наконец-то технологиям распознавания и синтеза речи была найдена достойная сфера применения! Конечно, они еще очень далеки от совершенства, но для распознавания отдельно произнесенных слов на достаточно ограниченном словаре уже давно предложены программые системы (взять хотя бы известный проект агентства перспективных исследований Министерства обороны США, осуществлявшийся в 1980-х годах). Приемлемый же синтез речи (TTS, text to speech) в течение нескольких минут могут обеспечить продукты очень многих компаний. Обычно при использовании современных систем TTS неприятные ощущения от однотонного, бесчувственного голоса начинаются только по прошествии десятка минут.
Сервисы, предоставляемые ГП, можно логически разбить на три группы:
- Корпоративные услуги: расписание движения поездов и самолетов, информация о кинотеатрах, театрах, ресторанах и т. д.;
- Общедоступная информация: погода, новости, спортивные и культурные мероприятия;
- Персонализированные данные: голосовая почта, календарь, список адресов и телефонов.
Кроме того, услуги ГП могут быть бесплатными и платными. В первом случае прибыль обеспечивается не пользователем, а рекламодателем, ориентированным на определенный круг клиентов. При этом эффективность подобной рекламы оценивается специалистами как очень высокая.
Платные же услуги ориентированы на более искушенных и требовательных клиентов. Они освобождаются от рекламы и плюс ко всем возможностям бесплатных услуг получают право пользоваться специальными сервисами, в том числе персональной голосовой почтой и выходом в Интернет. Оплата производится через подписку или при помощи денежных переводов.
В некоторых вариантах ГП пользователь может конфигурировать свои личные настройки при помощи самого портала или Интернета:
- режим новичка или опытного пользователя: определение объема голосового сопровождения;
- параметры синтезированного голоса: выбор стиля речи, пола, возраста диктора;
- период ожидания ответа: время, в течение которого система ожидает ответа, прежде чем повторить приглашение или предложить помощь;
- речевой профиль: определение голосовых характеристик клиента, для повышения точности распознавания его речи.
Сведения о самых популярных ГП мира приведены в табл. 1.
Таблица 1. Крупнейшие голосовые порталы мира
Название портала | Электронный адрес | Описание |
BeVocal | www.bevocal.com | Предоставляет несколько бесплатных служб: VocalConcierge, VocalDelivery, VocalFinance, VocalLocator, VocalNews, VocalTraffic, VocalTravel и VocalWeather, позволяющих по указанному адресу получить сведения об отелях, ресторанах, магазинах, банках |
Conita PVA (Personal Virtual Assistant) | www.conita.com | По телефону можно получить доступ к корпоративной информации и к Интернету. Благодаря интеграции с телефонной системой можно организовывать голосовые конференции, передавать речевые сообщения и звонить по любому номеру. Решение интегрировано с Microsoft Outlook/Exchange |
SANDi (Sound Advantage Natural Dialog Interface) | www.soundadvantage.com | Голосовая система сообщений, использующая “движки” распознавания и синтеза речи компании Lucent. Разработана для поддержки офисной телефонной системы и построена на основе Microsoft Windows NT Server и карт Dialogic. Способна производить поиск необходимой информации в Интернете, а также сообщать о катировках акций, новостях и прогнозе погоды |
Tellme | www.tellme.com | Бесплатный ГП, созданный компанией AT&T и доступный на территории США. Посредством голосового меню можно получить сведения о местных ресторанах, развлекательных мероприятиях, котировках акций. Предоставляет информацию о дорожном движении, погоде, дорожных пробках и спортивные новости. Предусмотрена опция телефонной будки, позволяющая позвонить по любому номеру и поговорить две минуты бесплатно |
Возросшая популярность языка VoiceXML повлекла за собой появление на рынке готовых решений. Например, на сайте речевой группы Университета Карнеги - Меллона (www.speech.cs.cmu.edu) можно найти библиотеку OpenVXI для интерпретации языка VoiceXML, доступную в исходных текстах. Утилиты, документацию и примеры можно получить по адресу www.cambridgevoice.com. Данные о других полезных ресурсах Интернета сведены в табл. 2.
Таблица 2. Ресурсы, имеющие отношение к голосовым порталам
Название ресурса | Электронный адрес | Описание |
IBM | http://www-4.ibm.com/software/speech/contest/ | Один из самых информативных сайтов, посвященных диалоговому языку VoiceXML. На нем можно найти множество примеров, статей и даже форум. Предлагаемый набор разработчика IBM WebSphere Voice Server SDK позволяет легко создавать и тестировать голосовые Web-приложения на обыкновенном ПК |
Nuance | www.nuance.com | Поддерживает клуб разработчиков на основе разрабатываемых компанией продуктов, делает доступными обширную библиотеку документации и программы. Предлагает набор утилит, способных значительно упростить процесс создания голосовых систем |
SpeechWorks | www.speechworks.com | Самая крупная компания, занимающаяся развертыванием и поддержкой ГП. Разработчик и поставщик всего комплекса решений по данной технологии. Организатор нескольких выставок, посвященных речевым технологиям, и множества бесплатных онлайновых одночасовых семинаров |
Форум VoiceXML (AT@T, IBM, Lucent и Motorola) | www.voicexml.org | Официальный сайт языка диалогов VoiceXML. Содержит документацию и утилиты. Есть форум |
Затраты на развертывание ГП пока весьма существенны, и их способны осилить лишь крупные организации. Стоимость инсталляции системы ASR для одного порта составляет от 500 до 1500 долл., а механизма синтеза речи - 650 долл. (приведены цены компании SpeechWorks). Помимо крупных вложений, развертывание ГП требует немало времени. Например, в авиакомпании AirTran этот процесс занял восемь месяцев, и даже после сдачи ГП в январе этого года специалисты до сих пор дорабатывают некоторые его элементы. По мнению представителей компании, сложнее всего было интегрировать новые технологии в уже существующую информационную инфраструктуру. Тем не менее выгода налицо: снизились издержки на сопровождение телефонного центра и значительно увеличилась его пропускная способность. Авиакомпания осуществляет примерно 300 вылетов ежедневно, и если раньше клиенты, позвонившие в справочную систему фирмы, были вынуждены ждать ответа в среднем около семи минут, то теперь они получают его сразу.
По нашим сведениям, в России пока нет ни одного общедоступного ГП, хотя некоторые фирмы уже работают в этом направлении и вполне возможно, что в ближайшие годы наши соотечественники смогут оценить этот вид услуг.
Взгляд в будущее
Доступ в Интернет имеют около 320 млн. компьютеров, но свыше 2 млрд. человек пользуются телефонами. К тому же все большую популярность приобретают мобильные устройства, такие как сотовые телефоны и КПК. Они всегда под рукой - дома, на работе, в дороге. В отличие от обычного телефона они способны в автоматическом режиме предоставлять зависимую от местоположения клиента информацию, наподобие сводки дорожных происшествий, прогноза погоды, сведений о массовых и культурных мероприятиях. Потенциал этого рынка достаточно большой, и на нем ГП весьма кстати.
По данным компании IGI Consulting, к 2003 г. число людей, использующих для доступа в Интернет беспроводные устройства, превысит количество тех, кто пользуется для этой цели ПК. А к 2005 г. в мире будет функционировать 830 млн. устройств с беспроводным доступом в Интернет.
The Kelsey Group посчитала, что к 2005 г. 18 млн. человек будут тем или иным способом взаимодействовать с ГП, а обороты этой индустрии вырастут до 17 млрд. долл.
Frost & Sullivan, исследовательская и консультационная фирма, предсказывает увеличение числа регулярных пользователей ГП с 200 тыс. в 2001 г. до 200 млн. в 2007 г., а также увеличение прибыли от ГП с 3,6 млн. долл. до 5 млрд. долл. за тот же промежуток времени.
Одна из самых крупных организаций, занимающихся ГП, компания SpeechWorks (www.speechworks.com) объявляла, что за последний квартал 2000 г. ее оборот вырос на 142%. Во втором же квартале 2001 г. прибыль этой компании увеличилась на 72% по сравнению с тем же кварталом прошлого года и составила 10,4 млн. долл. Подобные темпы наблюдаются и у многих других зарубежных фирм.
В том, что со временем появится масса мобильных персонализированных устройств, мало кто сомневается, но вот как они будут общаться между собой и каким образом выходить в Интернет - не вполне ясно. Еще менее понятно, какой у них будет интерфейс взаимодействия с человеком, - то ли речевой способ коммутации, то ли сенсорный цветной экран. От этого во многом зависит масштаб использования и востребованности речевых технологий. Но то, что ГП уже вошли в жизнь многих людей и играют в ней вполне определенную роль, это - свершившийся факт!
С автором можно связаться по адресу: ulanov@pcweek.ru.
ГП с точки зрения разработчика
Рисунок иллюстрирует структуру ГП. База данных хранит персонализированную информацию пользователя, заранее записанные звуковые фрагменты, часто запрашиваемую информацию. Входной и выходной блоки отвечают за голосовое взаимодействие с пользователем и могут состоять из нескольких модулей. Исполнитель скрипта VoiceXML является связующим звеном системы - он выполняет хранимый скрипт VoiceXML (см. PC Week/RE, N 26/2000, с. 18) во взаимодействии с базой данных, входным и выходным блоками.
Задачей разработчика ГП является создание диалоговых скриптов - голосовых программ, определяющих обмен вербальной информацией между пользователем и компьютерной системой. Для их написания существует несколько языков: VoxML (Motorola), OmniView XML (Indicast, www.indicast.com), VA-XML (Conita Technologies, www.conita.com), VoiceXML (AT&T, IBM, Lucent и Motorola, www.voicexml.com). VoiceXML - самый молодой из них и самый перспективный, так как был одобрен консорциумом W3C в мае 2000 г. в качестве модели языка диалогов в рамках группы W3C Speech Interface Framework (www.w3.org/Voice), вырабатывающей спецификации в таких областях речевых технологий, как синтез речи, грамматика и семантика языка (см. PC Week/RE, N 5/2001, с. 3).
По мнению обозревателя из журнала Speech Technology Magazine (www.speechtechmag.com) Джеймса Ларсена, один и тот же контент по-разному программируется для представления в графическом и речевом виде. Если взять, к примеру, HTML и VoiceXML, то в первом упор делается на тип шрифта, его цвет, размер и выравнивание на экране, а во втором - на модель голоса и его характеристики. Перед разработчиками часто встает вопрос, как поддерживать схожий контекст для обеих форм представления информации: графической и голосовой? Существует четыре варианта решения поставленной задачи, рассмотрим каждое из них в отдельности.
Двойной скрипт. Разработчик создает визуальное описание контекста, используя графический язык разметки, например HTML, и отдельно голосовое описание той же самой информации, применяя некоторый язык диалоговой разметки, допустим VoiceXML. При внесении изменений в одно из описаний необходимо сделать соответствующие изменения в другом, и наоборот. При этом синхронизация двух скриптов может стать обременительной задачей.
Перевод скрипта. Созданное описание контекста для GUI-браузеров подвергается трансляции, в результате чего решаются следующие задачи:
- извлеченные данные из HTML-кода конвертируются в описание VoiceXML;
- создаются речевые подсказки и реплики для данных, которые нельзя напрямую перенести в диалоговый скрипт, например, это касается всевозможных рисунков;
- определяется последовательность подачи вербального материала;
- указываются подходящие временные параметры диалога (timeout), тип и стиль синтезированной речи;
- выбирается грамматика для правильного распознавания речи пользователя в ответ на голосовое приглашение системы;
- происходит переконвертация данных в формат, поддерживаемый голосовыми браузерами.
На рынке представлено несколько трансляторов. К примеру, это Vocal Point (www.vocalpoint.com) и Internet Speech (www.internetspeech.com), позволяющие клиентам просматривать существующие Интернет-ресурсы и избегать дорогостоящей перекодировки уже созданного контекста.
Одиночный скрипт. Разработчик создает только одно описание контекста, подходящее как для визуального, так и для голосового браузеров. Но язык, поддерживаюший оба представления - и графическое, и речевое, довольно сложен и пока не нужен. Этот подход находится в стадии разработки и экспериментирования.
Множественные представления одной структуры. Изначально определяется структура будущего контекста, затем на ее основе создаются планы конвертации данных в нужное представление. Например, план перевода в GUI-формат будет включать в себя расположение, формат и цвет шрифта, а план трансляции в речевое представление учтет последовательность диалогового скрипта, параметры распознавания и особенности произношения. При дальнейшем эксплуатировании системы, при условии, что структура контекста остается неизменной либо слабо корректируется, трансляцию контекста во множественные представления можно производить автоматически, без модификаций их планов. Данный подход, как и предыдущий, остается пока прерогативой исследователей.
Резюме для руководителей
Услуги телефонистов
( + ) Общение с человеком, а не с автоматизированной системой; позволяет решать высокоинтеллектуальные проблемы.
( - ) Дорога в развертывании и сопровождении (в США средняя цена разговора за минуту с автоматизированной системой стоит от 30 до 45 центов, а с оператором - 3,5 долл.); обычно являются платными; фиксированное число операторов ограничивает количество одновременно дозвонившихся клиентов.
IVR
( + ) Не требует предварительного обучения пользователей; дешевая в развертывании и сопровождении.
( - ) Маленькие кнопки телефона неудобны - легко случайно нажать не ту клавишу; пользователь вынужден выслушать все меню, вместо того чтобы сразу заказать нужную информацию. Опытные клиенты, запомнившие необходимую комбинацию, могут провести не ту транзакцию или быть дезинформированы при модификации системы; часто приходится искать нужную кнопку, что отвлекает глаза от другой работы; каждый уровень меню должен содержать не более пяти пунктов - требование, налагаемое среднестатическими возможностями кратковременной памяти человека.
ГП
( + ) Развертывание и сопровождение обходится не очень дорого; обеспечивает голосовой доступ к внутрикорпоративной и личной информации, а также к Интернету; можно объединить контенты ГП и Web-ресурса компании; не отвлекает глаза пользователя от других занятий, например таких, как вождение машины; нет необходимости строго придерживаться голосового меню.
( - ) Автоматическая система не дает 100%-ной точности распознавания речи; сегодняшнее развитие ИИ не позволяет выполнять сложные интеллектуальные запросы; неопытный пользователь вынужден выслушать все голосовое меню, прежде чем заказать нужную ему информацию.