ОБЗОРЫ
Прелюдия, или что же было вначале?
Очевиден тот факт, что речь является одним из самых древних способов общения и наиболее адекватным средством обмена информацией между людьми. Историографические вехи: появление устной речи (языка) - появление письменности (как способа фиксации речи) - появление книгопечатания (как способа массового распространения информации) - стали сегодня, пожалуй, не менее значимыми, чем привычные каменный - бронзовый - железный век (и, добавим от себя, снова кремниевый). Человечество постепенно переходит от постиндустриального общества к информационному, и на первый план выходят средства обмена и отображения информации.
Однако на пути формирования единого информационного общества всегда стояли две фундаментальные проблемы: языковой барьер, препятствующий полноценному общению людей между собой, и барьер управления, связанный с появлением принципиально новых устройств. При внимательном рассмотрении можно заметить, что оба этих барьера имеют одинаковую природу: для их преодоления недостаточно уметь ясно для самого себя сформулировать свою мысль. Ключевым противодействующим моментом в процессе общения становится необходимость донести сформулированную информацию до конечного получателя (адресата) на понятном ему языке независимо от того, человек он или машина. Для полноценного взаимодействия одна из сторон должна предварительно выполнить такие трудоемкие и невеселые процедуры, как изучение посторонней грамматики и лексики (если адресатом является человек) или инструкций по эксплуатации (если речь идет об управлении устройством). Однако даже после этого нет полной гарантии, что ваши намерения будут поняты именно так, как нужно.
Ясно, что появление способа, позволяющего напрямую и без предварительной подготовки осуществлять взаимодействие человек - человек или человек - машина, на нынешнем этапе развития технологий воспринималось бы как чудо. Достаточно вспомнить универсальный переводчик из популярной киносказки “Star Trek”, который помогал капитану Кирку понимать пришельцев и разговаривать с ними на их языке.
Предвкушение Завтра, или Ожидание больших денег
Гуманитарные соображения, а тем более фантазии продюсеров и сценаристов Голливуда все-таки не являются неоспоримым подтверждением того, что общество действительно “предвкушает” приход той или иной технологии. В материальном мире бесспорным доказательством может быть только опыт, эксперимент. Или деньги - заработанные либо сэкономленные.
Рис. 1. Рост рынка речевых технологий
(по данным IDC и Datamonitor)
Об ожидании взрыва на рынке технологий распознавания речи свидетельствуют не столько бесконечные разговоры о нем, сколько сухие бескомпромиссные цифры и диаграммы отчетов ведущих мировых аналитических компаний и организаций (см. рис. 1).
Так, американская исследовательская компания Cahners In-Stat считает, что мировой рынок ПО распознавания речи к 2005 г. увеличится с 200 млн. до 2,7 млрд. долл. По мнению же фирмы Datamonitor, объем рынка голосовых технологий будет расти в среднем на 43% в год (650 млн. долл. в 2000 г. до 5,6 млрд. долл. в 2006-м). Эксперты, сотрудничающие с медиакорпорацией CNN, отнесли распознавание речи к одной из восьми наиболее перспективных технологий нынешнего года. А аналитики из IDC заявляют, что к 2005 г. распознавание речи вообще вытеснит с рынка все остальные речевые технологии (см. рис. 2).
Этот авторитетный список можно продолжать и дальше, но его содержание будет сводиться к одному: человечество находится на пороге бума, прорыва, который приведет к серьезному переделу существующего высокотехнологичного рынка и высвободит колоссальные денежные средства. Надо сказать, что борьба за обладание этими средствами ведется уже сейчас, причем основные “бои” разыгрываются компаниями-разработчиками как раз в сегменте автоматического распознавания речи.
Почему приходится ждать Завтра, или Где же все эти деньги сегодня?
В каком же направлении нужно сконцентрировать свои усилия компаниям-разработчикам и исследователям речевых технологий, чтобы оказаться в нужное время в нужном месте и занять лидирующее положение на ожидаемом рынке? Где “зарыты” те миллиарды долларов, которые уже разглядели своим всевидящим оком прозорливые аналитики? Ответ на этот, казалось бы, простой вопрос далеко не очевиден. Не всем везет, как Колумбу: в современном мире неправильно выбранное направление исследований чаще всего оборачивается для компании потерей колоссальных средств. Для того чтобы хоть приблизительно наметить, где расположен Остров Речевых Сокровищ, предлагаю проанализировать нынешнее положение на рынке речевых технологий. На сегодняшний день лидерами по востребованности являются два рода систем.
Первый - так называемые автоматические call-центры, или справочные службы с распознаванием речи. Они способны отвечать на простейшие поступающие вопросы. Например, в аэропортах такими вопросами могут быть: “В котором часу отправляется рейс номер X?”, “Сколько стоит билет до города Y?” и т. д. Подобные системы уже достаточно давно и успешно функционируют. Так, авиакомпания United Airways внедрила у себя автоматическую справочную службу еще в 1999 г. Автоматические системы обработки телефонных звонков эксплуатируются такими компаниями, как американский оператор связи AT&T, инвестиционный банк Charles Schwab & Co, розничная сеть Sears, сеть супермаркетов Roebuck. И хотя сейчас лидером по количеству используемых call-центров такого типа является Америка, в последнее время выгоду от систем распознавания речи начали осознавать и в Европе. Например, швейцарская служба железных дорог уже предоставляет своим немецкоязычным пассажирам услуги, аналогичные тем, что предлагает United Airways.
Автоматический call-центр - решение полезное, но ресурсоемкое и дорогостоящее. И вдобавок ко всему прочему количество компаний, которые способны установить у себя эти системы (т. е. являются их потенциальными потребителями), весьма ограничено: этот сегмент рынка практически сложился и уже не будет иметь миллиардные обороты, так как просто не может расти в геометрической прогрессии.
Рис. 2. Структура рынка речевых технологий
к 2005 г. (по данным IDC)
Второй из наиболее востребованных в наше время продуктов на основе технологии распознавания речи представляют специализированные системы диктовки. Предназначены они, как правило, для специалистов определенных профессий - медиков, юристов, работников правоохранительных органов. Если описать их работу в двух словах, то выглядеть это будет примерно так. Адвокат господин Иванов (хирург Петров, детектив Сидоров) наговаривает в систему текст, содержащий большое количество специальных терминов. После этого наговоренную информацию надо перенести на бумагу и подшить в большие внушительные папки. Конечно, по сценарию, у господина Иванова (Петрова, Сидорова) есть усердная и очень привлекательная секретарша, которая и должна этим заниматься, но беда в том, что господин Иванов (Петров, Сидоров) - настоящий профессионал, он работает много и споро и за день наговаривает информации на сотни печатных страниц. В таком вот случае и помогают профессиональные системы распознавания. Пропущенный через них текст не является литературно правильным. Более того, здесь нет гарантии ни его семантической целостности, ни даже осмысленности (то же самое, кстати, относится и к системам машинного перевода). Все просто: система понимает отдельные слова и термины и составляет из них фразы в соответствии с заложенным в ней алгоритмом. Разумеется, такой текст необходимо править, и сделать это может подготовленный специалист - та самая привлекательная девушка-секретарь. Но теперь ее задача значительно облегчается: имея текст, пропущенный через систему диктовки, и протокол записи, она без труда поправит распознанный вариант и приведет его в понятный стороннему читателю вид.
Стоит обратить внимание на очень важную вещь: упомянутый секретарь должен свободно ориентироваться в предметной области своего босса. В противном случае распознанный текст навсегда останется не чем иным, как бессвязным нагромождением слов и профессиональных терминов.
Как и в случае с автоматическими call-центрами, разработка профессиональных систем диктовки - специфический, “нишевой” рынок с естественно ограниченным объемом и достаточно хорошо к настоящему времени освоенный. Даже в США, где на сотню американцев приходится один юрист, миллиардные перспективы такого рода продуктов весьма сомнительны.
Так откуда же возьмутся прогнозируемые миллиарды?
Кто контролирует конечного потребителя, тот контролирует рынок, или Бери пример с Microsoft
Но давайте теперь попробуем найти общее между такими, казалось бы, разными продуктами, как описанные нами выше. Что может объединять большие и ресурсоемкие автоматические справочные службы и узкоспециальные системы диктовки, задача которых сводится к упрощению протоколирования профессиональных текстов? А объединяет их то, что они совсем не ориентированы на конечного потребителя, не способны и даже не призваны решать возникающие у него каждый день проблемы, помогать ему в повседневной жизни. Мы отметили, что у рынков call-центров и профессиональных систем диктовки есть две черты: “нишевость” и, как следствие, отсутствие потенциала роста. Именно этим и объясняются нынешнее фактическое отсутствие массового рынка речевых приложений и невозможность для существующих систем эффективно конкурировать в будущем.
Ожидаемые миллиарды придут на рынок технологий распознавания речи тогда и только тогда, когда рядовой пользователь компьютерных систем и портативных приборов или даже просто домохозяйка получит надежное и эффективное средство, которое обеспечит им адекватное взаимодействие с окружающими людьми и устройствами.
В подтверждение этого положения обратимся к истории. В свое время аналогичная ситуация сложилась на другом высокотехнологичном рынке - программного обеспечения. И тогда Microsoft главной своей целью поставила не создание тех или иных программных продуктов, а завоевание массового потребителя. Именно эта цель обуславливала все технические и маркетинговые шаги компании. Массовый потребитель не может позволить себе тратить столько, сколько тратит корпорация? Значит, продукт должен быть недорогим. Массовый потребитель не имеет такой производительной техники? Значит, продукт должен быть нересурсоемким. Массовый потребитель разбирается в тонкостях программирования хуже технического специалиста? Продукт должен быть простым и удобным в настройке. Массовый потребитель имеет дело с компьютером не только на работе, но и за пределами своего офиса? Дадим ему возможность запускать игрушки... Именно выполнение этих требований сделало MS-DOS и Windows тем, чем они стали. И пусть знатоки говорят, что по ряду характеристик эти продукты не вполне удовлетворительны - и все же+ По объему продаж этой корпорации уступили все или почти все конкурирующие компании, а среди них были такие титаны, как IBM и Apple. Но самое важное даже не в этом. Благодарный массовый потребитель вложил фантастические деньги в рынок программного обеспечения, и рынок приобрел колоссальные размеры.
Проведя параллель между рынками ПО образца 80-90-х и речевых технологий 2001 г., мы можем убедиться, что чудо появления распознающих речь приложений и устройств для массового потребителя на самом деле вполне правдоподобно. Миллиарды, которые пророчат аналитики и эксперты, достанутся тому, кто первым создаст продукт, способный обеспечить адекватное эффективное решение проблем конечного пользователя. А задачи в этом контексте могут быть самыми разнообразными - от управления кофеваркой или холодильником до полноценного общения с носителем другого языка.
Послесловие, или Разговор - золото
Задач, которые могут быть решены с помощью речевых технологий, огромное количество. Компаниям-разработчикам надо всего лишь определить круг проблем, возникающих каждый день у каждого из нас, и предложить средства для преодоления - недорогие и эффективные.
И тогда к 2005 г. (доверимся-таки прогнозам) поговорка “молчание - золото” может утратить свою актуальность, ведь очередную золотую жилу человечество найдет - в буквальном смысле - говоря.