Неразбериха вокруг многомодальных стандартов омрачает будущее речевых приложений
На рынке речевых технологий - новые потрясения. Только-только началась широкая разработка приложений распознавания речи на базе VoiceXML, как появляется потенциально конкурирующий стандарт, поддерживаемый - кем вы думаете? - корпорацией Microsoft.
С тех пор как World Wide Web Consortium примерно пару лет назад утвердил стандарт VoiceXML 1.0, он используется разработчиками для интеграции речевых технологий в разнообразные приложения, включая ПО управления взаимодействием с клиентами.
Однако интерес к многомодальным приложениям, сочетающим распознавание речи с другими формами ввода информации (при помощи клавиатуры, пера или набора цифровых кнопок) побудил ряд компаний, в том числе Microsoft, поддержать проект SALT Forum (Speech Application Language Tags - теги языка речевых приложений). И теперь вокруг SALT и VoiceXML консорциума W3C формируются два разных лагеря.
По одну сторону находится группа во главе с IBM, Motorola и Opera Software, представившая в органы стандартизации W3C предложение объединить VoiceXML с XHTML (eXtensible HTML - расширяемый HTML). Она призывает разработчиков создавать многомодальные приложения, размечая одну и ту же страницу посредством VoiceXML для речи и XHTML для текста и графики. Данное предложение закладывает фундамент для эффективного объединения протоколов, и, по-видимому, W3C скоро сформирует рабочую группу для обсуждения этого проекта.
По другую сторону находятся приверженцы SALT: Microsoft, Cisco Systems, Comverse, Intel, Philips Electronics и SpeechWorks International. В ближайшее время SALT Forum тоже планирует подать предложение в международную организацию по стандартам, хотя пока не решено, будет ли это W3C или Internet Engineering Task Force.
Компании, заинтересованные в использовании речевых технологий и, возможно, имеющие виды на многомодальные приложения, хотят, чтобы производители разобрались со своими расхождениями и пришли к единому стандарту.
“С позиций пользователей технологии мы считаем, что лучший вариант, - открытые стандарты. И, похоже, VoiceXML и XHTML развиваются в этом направлении”, - сказал Джоан Мэдден, менеджер проекта из United Parcel Service of America (Махуа, шт. Нью-Джерси).
Архитектура приложений voicexml
UPS использует ПО распознавания речи, разработанное фирмой Nuance Communications. Эта технология позволяет компании обрабатывать до 80% клиентских заявок, не прибегая к прямым контактам между клиентами и операторами.
Мнение специалистов UPS разделяют и в других организациях.
“Нам выгодно утверждение стандарта, - заявил Рой Пробус, аналитик корпорации WebMD (Нэшвил, шт. Теннеси). - Тогда мы сможем свободно менять поставщиков технологий, зная, что это не потребует переработки системы”.
WebMD использует технологию распознавания речи корпорации Edify для автоматизации обслуживания клиентов в центре обработки телефонных вызовов. Сегодня клиент отдает голосовую команду и система переключает линию на соответствующего оператора. В будущем же WebMD планирует построить полностью автоматизированную систему, умеющую отвечать на вопросы при помощи базы знаний.
Edify (Санта-Клара, шт. Калифорния) относится к числу 18 компаний, разрабатывающих речевые приложения и недавно заявивших о поддержке SALT Forum. Однако она, как и многие другие фирмы, пристально следит за тем, что происходит в лагере VoiceXML.
“Принцип или-или здесь не уместен, - отметил технологический руководитель Edify Кен Уолн. - Мы считаем SALT более перспективным вариантом, чем VoiceXML, но если приживутся оба стандарта, то оба и будем поддерживать”.
По словам Уолна, эти стандарты пытаются решить одну и ту же проблему: органично задействовать голосовые функции при минимальных усилиях по доучиванию разработчиков. Стандарт, за который ратуют IBM, Motorola и Opera, объединяет на одной странице разметку VoiceXML и XHTML. А SALT предполагает добавление к существующим языкам Web-разметки - HTML и XML - специальных речевых тегов.
“VoiceXML ближе к речевому миру; SALT ближе к миру многомодальных приложений, - считает Уолн. - Но оба подхода имеют одну цель - интеграцию Web и голоса, и они со временем сблизятся и превратятся в один стандарт”.
Даже компания SpeechWorks (Бостон) - разработчик ПО распознавания речи и один из учредителей SALT Forum - поддерживает в речевых системах VoiceXML.
“Если мыслить философски, то оба стандарта двигаются в одном направлении”, - сказал Роб Кассел, менеджер SpeechWorks по продуктам для новых технологий. По его информации, SpeechWorks переключилась на поддержку SALT, будучи не удовлетворена ранними попытками скомбинировать VoiceXML с HTML для многомодальных приложений. Однако он еще не пришел к окончательному мнению относительно нынешнего предложения в W3C по объединению VoiceXML и XHTML.
“SALT Forum планирует представить свой стандарт в международный орган стандартизации. Если это будет W3C, то часть вопросов, наверное, найдет решение”, - надеется Кассел.
По словам Дейва Раггетта, члена консорциума W3C и его главного эксперта по речевым и многомодальным приложениям, он убежден, что если SALT Forum представит предложения в W3C, то любые расхождения между SALT и спецификацией VoiceXML/XHTML удастся уладить.
“Вокруг этого вопроса поднялось много шума, но все это, по существу, только политика”, - заверил Раггетт, помогавший в проведении разгоревшихся в 1995 г. дебатов по стандартам между Microsoft и Netscape Communications и в итоге приведших к утверждению универсальных норм HTML.
“Этим компаниям надо спросить самих себя, хотят ли они иметь четкие стандарты или нет? - продолжает Раггетт, ныне старший архитектор фирмы Openwave Systems (Гертс, Великобритания). - Все же думаю, что они в этом заинтересованы, и тогда W3C - самое подходящее место для такой работы”.
Однако этот оптимизм разделяют не все.
“W3C можно было бы взять полезные элементы обоих подходов, и тогда появится перспектива движения вперед на основе общего стандарта”, - сказал Мэтт Коллан, директор по корпоративному маркетингу фирмы Nuance (Менло-Парк, шт. Калифорния). Nuance решила поддерживать группу VoiceXML/ XHTML. По словам Коллана, у SALT, возможно, есть достоинства в плане технологии, но группа во главе с IBM выбрала более правильный подход, сразу обратившись в W3C. “Именно там надо решать подобные вопросы, а SALT Forum - это не тот путь”, - заявил он.
С ним согласен Фрэн Рабук, руководитель по практическим решениям группы мобильных систем фирмы Alliance Consulting (Филадельфия): “Я бы предпочел то, что исходит от W3C, поскольку так уж исторически сложилось, что это нейтральная территория. Мы меньше всего заинтересованы в новой войне стандартов”.
К тому же большинство организаций считают технологию многомодальных приложений далекой от зрелости, над ней еще много придется поработать, тогда как технология распознавания речи уже достигла совершеннолетия.
“Самое скверное, что споры вокруг многомодальных стандартов создают неразбериху на рынке VoiceXML, - отметил Рабук. - У голосовых технологий сегодня имеются вполне реальные возможности, и это позволяет создавать системы, где в многомодальных функциях пока нет нужды”.
Берн Эллиот, аналитик фирмы Gartner (Стамфорд, шт. Коннектикут), уверен, что многомодальные приложения выйдут на широкую дорогу лишь через пару лет и поэтому инициатива SALT понапрасну отвлекает внимание некоторых организаций, заинтересованных в безотлагательном развертывании речевых приложений. По его мнению, позиция SALT Forum является контрпродуктивной.
“В нынешних условиях предложение SALT вряд ли поможет корпоративным пользователям внедрять речевые технологии, - сказал Эллиот. - Оно может замедлить прогресс. Как правило, ранние этапы разработки стандартов протекают в тиши кабинетов, без большой огласки. А мы являемся свидетелями политизации чисто технического исследования. Самый конструктивный вариант - если бы группы SALT и XML начали совместную продуктивную работу в рамках W3C”.
Однако нынешние речи светил из IBM и Microsoft не оставляют сомнений в том, что склока лишь усиливается.
“На рынке вполне достаточно места для сосуществования многих стандартов, - заявляет Джемс Мастон, менеджер по продуктам из группы речевых технологий для .Net корпорации Microsoft (Редмонд, шт. Вашингтон). - VoiceXML сыграл важную роль в своей изначальной области применения - телефонии, а нашей конечной целью являются будущие интересы пользователей”.
SALT, по словам Мастона, сможет превратить шесть миллионов нынешних Web-разработчиков в создателей приложений с речевыми функциями, так как этот проект построен на уже известных им технологиях Web-разработок. И он справится с этим гораздо быстрее, чем VoiceXML вкупе с XHTML.
Как сказал Мастон, SALT является одной из частей стратегии Microsoft, стимулирующей внедрение технологий “говорящего” Интернета. Другая часть - создание платформы для развертывания таких технологий на базе .Net.
В лагере же IBM гневно заявляют, что все это - нечестная игра и Microsoft лишь хочет заиметь еще одну монопольную платформу. “По-моему, вопрос достаточно ясен, об этом свидетельствует вся их история,” - сказал Уильям Осборн, главный управляющий группы IBM Voice Systems (Бока-Рейтон, шт. Флорида).
По словам Осборна, IBM поддерживает не новый стандарт, а только комбинацию уже действующих стандартов - VoiceXML и XHTML. Поданный в W3C документ предлагает, как их лучше всего объединить. “Поскольку оба стандарта, VoiceXML и XHTML, все время совершенствуются, люди могут продолжать ими пользоваться, - заявил Осборн. - Новый стандарт нам не нужен. Добавляя голосовые теги, вы фактически расширяете синтаксис, а сегодня уже есть готовый стандарт для изменения синтаксиса. Тогда как SALT Forum хочет все это выбросить в мусорную корзину и начать заново”.
Место SALT, считает Осборн, на столе для разработки многомодальных стандартов при условии, что его сторонники будут работать вместе с W3C. “Мы не хотим затевать дискуссию, кто лучше. Нам не нужны два стандарта и не надо, чтобы люди под них разрабатывали разные программы, - пояснил он. - Давайте все это направим в рабочую группу W3C по многомодальным приложениям и займемся созданием единого стандарта”.
Кто есть кто в речевых технологиях
Хотя многие компании, специализирующиеся на речевых продуктах, уже заявили о поддержке SALT Forum, их повседневной рабочей речевой платформой остается VoiceXML и они пристально следят за усилиями по ее интеграции с XHTML, составляющими альтернативу проекту Speech Application Language Tags (теги языка речевых приложений), для поддержки многомодальных приложений. Ниже приводятся краткие сведения о некоторых авторитетных игроках рынка речевых технологий, а также молодых фирмах, занимающихся многомодальными приложениями.
Фирма Nuance Communications (Менло-Парк, шт. Калифорния) - разработчик ПО под девизом VoiceWeb - выпускает средства распознавания речи, аутентификации голоса, преобразования текста в речь и голосового взаимодействия с браузерами. Эту технологию часто используют в автоматизированных системах телефонного обслуживания клиентов. Nuance также предлагает инструментарий разработчика для создания речевых приложений. Ее продукт VoiceWeb Server поддерживает VoiceXML 1.0 и “свежую” версию 2.0.
Nuance является сторонником объединения VoiceXML и eXtensible HTML, предложенного в World Wide Web Consortium компаниями IBM, Motorola и Opera Software. При этом SALT она не поддерживает.
Фирма SpeechWorks International (Бостон) - один из учредителей SALT Forum, хотя поддерживает VoiceXML и очень активно участвовала в его разработке.
Компания работает в сфере распознавания естественной речи, верификации личности говорящего и приложений для преобразования текста в речь, выпуская продукты под маркой OpenSpeech. Она тесно сотрудничает с Microsoft и является движущей силой проекта SALT по созданию приложений на речевой платформе Microsoft .Net.
Фирма VoiceGenie Technologies (Торонто, Канада) выпускает продукт VoiceGenie VoiceXML Gateway - Unix-платформу для речевых приложений, включающую интерфейсные карты телефонии и приложения для автоматического распознавания речи и преобразования текста в речь.
VoiceGenie также разрабатывает голосовой браузер и другие приложения, предназначенные для управления контактной информацией, речевого набора телефонных номеров, передачи электронной почты по телефону, управления голосовой почтой, а также календарь с голосовыми напоминаниями. Несмотря на свою поддержку VoiceXML, компания присоединилась и к SALT Forum.
Корпорация Voxeo (Скоттс-Вэли, шт. Калифорния) разрабатывает приложения, воспринимающие естественную речь, для самообслуживания клиентов. Ее платформа Voxeo Voice Center поддерживает распознавание речи, преобразование текста в речь, обработку VoiceXML, интеграцию в среду центров обработки телефонных вызовов и функции управления вызовами.
Поддерживая VoiceXML, компания также участвует в SALT Forum.
Фирма Telera (Кэмпбелл, шт. Калифорния) разрабатывает платформу VoiceWeb Application Platform, предназначенную для связи Web и систем телефонии. Она обеспечивает пользовательский доступ к Web-приложениям по телефону. Сюда входят приложения для интерактивного речевого отклика с использованием кнопочного и речевого набора, записи речи, организации очередей, маршрутизации звонков и исходящих извещений.
Все эти приложения создаются и развертываются на основе открытых стандартов, в частности VoiceXML. Telera поддерживает спецификацию VoiceXML 2.0 и является членом группы W3C Voice Browser Working Group, которая ее разработала. Но, как и другие сторонники VoiceXML, компания также участвует в SALT Forum.
Фирмы Kirusa (Беркли-Хайтс, шт. Нью-Джерси) и Lobby7 (Бостон) относятся к числу молодых компаний, специализирующихся на многомодальных приложениях. Kirusa создает инфраструктуру поддержки беспроводных многомодальных приложений для корпораций и операторов связи. Недавно она организовала программу технической и маркетинговой поддержки Kirusa Application Development Program, которая рассчитана на независимых разработчиков, партнеров и пользователей, применяющих ее Multimodal Platform для создания беспроводных многомодальных приложений. Kirusa вступила в SALT Forum, хотя поддерживает и VoiceXML, а недавно объявила о своей кооперации с фирмами Telelogue и VoiceGenie для добавления многомодальных функций в голосовые технологии этих двух компаний.
Lobby7 создает серверы приложений, обрабатывающие многомодальный ввод и вывод при обмене информацией между пользователями и аппаратурой. Эти продукты включают Xmode Network Server для обработки таких взаимодействий между компьютерной аппаратурой и другими устройствами с использованием сетевых подключений и Xmode Embedded Server, который действует на пользовательском устройстве и поддерживает многомодальный интерфейс даже без реального подключения в сеть.
Lobby7 участвует в SALT Forum, однако в своих продуктах также поддерживает VoiceXML и XHTML.