Статья только в электронной версии журнала
ОБЗОР
Бета-версия Speech Server требует специальных знаний
Новая разработка Microsoft под названием Speech Server 2004 обещает изменить сам подход компаний к включению речевых возможностей в корпоративные приложения. Сравнительно невысокая цена пакета и его привычный инструментарий позволят отказаться от принципа "черного ящика", к которому сегодня вынуждены прибегать разработчики приложений, и перейти к более открытым и гибким способам программирования.
При тестировании в eWeek Labs окончательная бета-версия Speech Server показала очень хорошие результаты. Правда, мы не могли не отметить, что для этого механизма, как и для других платформ, крайне важное значение имеют техническое обслуживание и поддержка. Дело в том, что для многих компаний самой большой проблемой станет отсутствие специалистов нужного профиля, без которых очень сложно создать простую в работе систему IVR (Interactive Voice Response - интерактивный речевой обмен).
Свою новинку Microsoft предлагает в двух вариантах. Стандартный (Standard Edition) стоит 7999 долл., тогда как корпоративная версия (Enterprise Edition) обойдется покупателю в 17 999 долл. (в обоих случаях плата взимается за каждый процессор). Разница между вариантами состоит в количестве поддерживаемых портов: в первом на узле может быть одновременно открыто до 24 портов, во втором - до 96. Выпуск обеих версий Speech Server начинается в июне.
Писать приложения для нового пакета будет сравнительно просто - в этих целях корпоративные разработчики смогут воспользоваться интерфейсом Speech Server API и средой программирования Visual Studio .Net. Но главное преимущество новинки перед другими подобными платформами состоит не в этом: она позволяет компаниям создавать приложения с комбинированным вводом данных. С помощью Speech Server, например, нетрудно превратить обычный Web-сайт поддержки клиентов в систему интерактивного речевого обмена. Не составит особых проблем и написание приложений, более гибко взаимодействующих с такими многомодальными устройствами, как телефоны Windows Mobile.
Speech Server состоит из двух частей - комплекта разработки речевых приложений Speech Application Developer Kit и средств развертывания Speech Server Deployment Components. Первый содержит элементы голосового управления ASP .Net, грамматический инструментарий и компоненты напоминаний. Все это, как показали результаты тестирования, открывает простой путь к разработке приложений или к их обогащению речевыми функциями.
Поскольку в Speech Server используется Visual Studio .Net, знакомые с этой средой программисты смогут быстро освоить новинку и взять бразды правления системой в свои руки даже в тех случаях, когда первую версию приложений предоставит внешний интегратор.
Для развертывания Speech Server в пакет включены SES (Speech Engine Services - сервисы речевого механизма), TAS (Telephony Application Services - сервисы телефонных приложений) и механизм TTS (Text-to-Speech - преобразование текста в речь) с базой данных. Кроме того, здесь имеется интерпретатор языка SALT (Speech Application Language Tags - теги языка речевых приложений), который открывает доступ к данным с голосовой поддержкой на Web-страницах. Пользоваться ими можно как через систему интерактивного речевого обмена IVR, так и с помощью клавиатуры и мыши.
Хотя Speech Server и абстрагирует разработчиков от аппаратного уровня, но управление программным уровнем может потребовать громоздкой абстракции. Чтобы упростить такие операции, необходим гораздо более сложный инструментарий. Speech Server, скажем, способен поддерживать выпускаемые Intel платы Dialogic, однако для управления ими понадобятся программы TIM (Telephony Integration Manager - диспетчер телефонной интеграции) этой же корпорации. В результате, для того чтобы перезапустить такую плату, нам приходилось сначала закрывать подключенное к ней приложение Speech Server из консоли управления ММС (Microsoft Management Console), а затем отключать саму карту с помощью TIM.
Консоль ММС управляет сервисами речевого механизма SES и телефонных приложений TAS, позволяя устанавливать соединения и регулировать такие их параметры, как длительность тайм-аутов. Подобная схема будет особенно удобной для корпоративной версии Speech Server, где сервисы SES и TAS обычно запускаются на разных серверах одного узла (в стандартном варианте все сервисы работают на одном сервере).
Чего нам не хватало при работе со Speech Server, так это генератора отчетов, позволяющего просматривать количество вызовов и поток данных через приложение. Такая информация помогла бы разработчикам определять, как клиенты взаимодействуют с приложением, чтобы четче подстраивать его под конкретные запросы пользователей.
В бета-версии для создания отчетов применяется компонент Logman, служащий для просмотра событий и контроля производительности. Правда, когда мы попытались в ходе тестирования выделить тенденции из накопленных данных, оказалось, что для этого необходимо выполнить множество ручных операций либо составить специальный сценарий работы Logman.
С техническим аналитиком Майклом Кейтоном можно связаться по адресу: michael_caton@ziffdavis.com.