ABBYY одной из первых среди российских компаний стала резидентом научно-инновационного центра “Сколково” и получила грант от одноимённого Фонда на развитие своей системы машинного перевода. Предлагаем читателям интервью её генерального директора Сергея Андреева с редакционным директором ИТ-группы изданий СК ПРЕСС Эдуардом Пройдаковым.
PC Week: Можно выделить рынок лингвистического софта, к которому относятся системы машинного перевода, распознавания речи, словари, спелчекеры, системы коррекции стиля текста и т. п. Как вы смотрите на развитие этого рынка?
Сергей Андреев: Включение в состав рынка лингвистического софта систем распознавания речи несколько условно, потому что распознавание речи состоит из двух существенных компонентов — анализа сигнала и использования контекстной информации. Этот рынок оценивается в единицы миллиардов долларов в год. При этом рынок ручного перевода, который выполняется агентствами, оценивался в прошлом году примерно в 20 млрд. долл., и он довольно быстро растёт: предполагается, что через пять лет он удвоится. Кроме того, есть Евросоюз, который конституционно обязан переводить все официальные документы на 26 языков стран-членов ЕС.
Рынок переводов мог бы быть больше, но его росту мешает нехватка людей, способных переводить. Поэтому цена за перевод балансирует между приемлемой для заказчика и исполнителя. Если бы эту цену можно было снизить, то удалось бы ещё больше увеличить данный рынок. Мы же пытаемся заметно облегчить труд переводчика, чтобы ускорить процесс раза в два и таким образом увеличить этот рынок за счёт снижения цены за перевод.
Понятно, что когда мы говорим про эти 20 млрд., то речь идет обо всех парах языков, а у нас сейчас на выходе только англо-русский и русско-английский переводчики, но концепция нашего продукта такова, что добавление каждого нового языка вызывает появление направлений перевода сразу со всеми существующими языками в системе.
Объясню немного подробнее. Центральным ядром создаваемой технологии служит Универсальная семантическая иерархия (Universal Sematic Hierarchy — USH). Дело в том, что хотя все люди на земле говорят разными словами, они используют очень похожую систему понятий. USH — это дерево понятий, универсальное для всех языков, толстые ветви которого являются более общими и универсальными понятиями (например, “путешествие”), а тонкие — более специфическими, но тоже универсальными понятиями (например, “командировка”). Слова каждого нового языка подвешиваются как листочки к ветвям USH. Проект нешуточный, но и выход ожидается большой, поэтому компания вкладывается в него и готова рисковать. Через некоторое время это лингвистическое направление для нас будет основным, поскольку потенциал здесь очень большой — возможны решения, связанные с поиском, распознаванием речи, реферированием, аналитикой, конкурентной разведкой и т. д. Есть очень большой потенциал для ветвления базовой технологии, благодаря которому можно получить вещи совершенно удивительные.
PC Week: Всё более популярным становится анализ неструктурированных текстов. Можно сказать, что это одна из ваших будущих областей?
С. А.: Дело в том, что технологии, которые для этого используются, — это в основном решения, сильно ориентированные на некую определенную задачу, под которую делаются описания, детальная настройка. Проблема в том, что если нужно поменять вопросы, то приходится делать глобальную перенастройку. То, что делаем мы, носит универсальный характер — технологию можно использовать как для анализа текста, так и для систем машинного перевода. Сейчас массового рынка для систем анализа данных нет. Что касается систем машинного перевода, то потребительский рынок закрыт бесплатной системой перевода от Google.
PC Week: Но там же отвратительное качество...
С. А.: Ну, не всегда блестящее, соглашусь. С другой стороны, этот сервис есть, и он бесплатный. Поэтому перетянуть на себя обычных интернет-пользователей очень сложно. Вкладывая в проект большие средства и силы, мы, конечно, в первую очередь будем выходить на корпоративный рынок. Версия для массового пользователя может использоваться только для продвижения продукта, но это не фокус при его разработке. Опять же перевод публикаций СМИ — вещь для перевода очень непростая, поскольку в них присутствует много эмоциональной окраски.
PC Week: С другой стороны, есть такие направления, как корпоративная разведка, в которой автоматический анализ публикаций очень важен...
С. А.: Наша технология позволяет найти в потоке документов информацию, которую компании могут не очень-то хотеть демонстрировать явно (например, выявить какие-нибудь связи между предметами, лицами или сущностями).
PC Week: Насколько это система подходит для систем распознавания командных языков, например для роботов?
С. А.: Для систем распознавания обычной речи система очень полезна, поскольку приходящий с микрофона речевой сигнал достаточно искажён и звуковой информации не всегда хватает для распознавания. Это заметно, когда разговариваешь в другой стране, например, называя своё имя при регистрации в гостинице. Поскольку у собеседника нет контекста, он просит вас произнести фамилию по буквам. Или когда человек в беседе на родном языке начинает произносить слова, которых не знает другой собеседник. Тот тоже начнёт переспрашивать. Получается, что без контекста человеку трудно распознать речь. Поэтому, если есть какая-то система, понимающая контекст и добавляющая недостающую информацию к распознаванию самого сигнала, то качество распознавания заметно улучшается. Понятно, что при распознавании ограниченного командного языка достаточно и обычного распознавания, а если потребуется расширение входного языка, то придётся довешивать работу с контекстом. Я слышал, что сейчас около половины запросов Google с мобильного телефона — голосовой ввод. При этом мы видим, что пока нет нормальной технологии, которая может решить эту задачу. Она решается на ограниченном контексте. Так, при вводе запроса в поисковик в каждый момент вываливаются подсказки, какие слова искали люди, и при большой статистике они таким образом сильно ограничивают словарь в момент, когда происходит распознавание.
PC Week: Что даёт вам переход в Сколково?
С. А.: Этот ход очень разноплановый. Сначала у меня было сдержанное отношение к этому проекту, но потом по мере контактов с организаторами отношение начало меняться в более позитивную сторону. Дело в том, что они собрали неплохую команду. А это немаловажно. Когда ты собираешь правильных людей, то это даёт определённые надежды. Конструкция, предложенная в Сколково, опирается на связку из нескольких ключевых моментов: во-первых, образование. Во-вторых, бизнес, который связан с этим образованием. В-третьих, там присутствует научный компонент, причём опять-таки в сочетании с вузами. Как известно, в СССР наука была в основном отделена от образования, от университетов. Сейчас в проект пытаются втянуть ведущие иностранные университеты и по их модели организовать исследовательские и образовательные площадки. Ещё один важный момент — там есть инвестиционный департамент, который инвестирует сам в какие-то проекты и настроен на создание бизнес-инкубаторов, чтобы возникла среда, в которой интересные новые идеи доводятся до воплощения. Всё это вместе взятое интересно для нас, поскольку то, чем мы занимаемся, действительно наукоемко. И если посмотреть на корни этой работы, то они кроются в серьёзных исследованиях российской лингвистики, и мы с уважением относимся и к российскому лингвистическому образованию, и к учёным из данной области. Этот научный багаж используется. У нашей компании есть кафедра в Физтехе, есть отношения с МГУ и РГГУ. Сколково даёт также возможность подтягивать учёных из-за границы, поскольку там есть на это определённые фонды.
PC Week: А потребность в привлечении иностранных лингвистов у вас есть?
С. А.: С одной стороны, пока мы концентрировались на русском и английском языках, мы были вполне самодостаточны, но поскольку мы подходим к точке ветвления, когда начинают добавляться другие языки, и приближаемся к высокой готовности самих продуктов и технологий, то возникает интересное сочетание факторов. Мы сейчас фактически находимся в предпродажной точке развития этой технологии — уже показываем систему крупным клиентам и начинаем с заинтересованными организациями прорабатывать конкретные пилотные проекты. То же самое происходит, например, в Еврокомиссии, которая выделяет серьёзные бюджеты на решение задач перевода, и мы сейчас тоже активно пытаемся войти в их проекты. В настоящий момент такие проекты достаточно сильно опираются на европейское научное сообщество — университеты, лаборатории, группы при университетах являются исполнителями в таких проектах. Здесь возможно создание общей среды, поскольку они компетентны в данной области. Мы предполагаем, что если им показать наши достижения, то можно договариваться о какой-то совместной деятельности, о каком-то развитии нашей системы на основе их наработок. В итоге можно попытаться из различных элементов сложить эту мозаику, чтобы получить целостную картину, которая может иметь разноплановое и очень разностороннее развитие как в научном, так и в образовательном плане.
У европейцев наш подход вызвал приятное удивление, поскольку в последнее время компьютерная лингвистика сильно сдвинулась в сторону статистических методов — это было модно и ново, но сейчас эйфория проходит, поскольку видно, что статистика может многое, но у неё есть очевидные пределы, через которые трудно перешагнуть. Это, в частности, заставило искать сочетание систем, основанных на правилах со статистикой. Мы изначально глубоко задумались над этим и статистику используем, но для верификации гипотез, а не для непосредственного получения перевода. Это и вызывает удивление и энтузиазм. Мне кажется, что в современном мире люди больше настроены на сотрудничество, чем на попытку всё съесть самому. Положительный потенциал для нормального сотрудничества есть. Кроме того, пока мы показываем перевод русский — английский, это не такой большой рынок, чтобы вызвать конкурентные опасения.
Кроме интересной среды, Сколково для нас интересный коммерческий проект: он привлекает внимание общественности, в частности очень интересных людей и компаний — потенциальных партнеров. Там есть такие хорошие вещи, как налоговый спецрежим, он лучше, чем налоговые льготы для ИТ-компаний. Там предполагается более мягкое иммиграционное законодательство, и нам там легче будет устроить к себе на работу иностранцев.
PC Week: Расскажите об истории вашего проекта. Как он развивался? Какие возникали проблемы?
С. А.: Проекту уже около пятнадцати лет. Поначалу в нём работало несколько человек, и они занимались в основном исследовательскими вещами — проверялись концепции. Серьёзная проработка началась примерно шесть лет назад, а года два назад были пройдены критические технологические риски. Одним из таких рисков являлся комбинаторный взрыв — когда при анализе сложного предложения может породиться экспоненциальное количество гипотез, прежде чем выяснится, какая из них корректна и предпочтительна с учетом контекста. Было довольно много технологических проблем, которые пришлось преодолевать. В итоге два года назад стало понятно, что система собирается, она стабильна и она развивается. Сейчас идёт доводка системы, чтобы она получила значительное преимущество по качеству перевода над конкурентами. Очень важно отметить, что мы в этой системе пока не видим такого явления, как насыщение качества — когда мы делаем изменения, то в ответ на наши усилия мы видим стабильный рост качества перевода. По системам предыдущего поколения было заметно, что в какой-то момент они стали выходить на уровень насыщения, при котором рост качества начинает сильно затормаживаться. Кроме того, существует масса задач, которые могут быть решены с помощью нашей универсальной технологии, например, умный поиск — вещь гораздо более востребованная, чем тот же самый машинный перевод.
PC Week: В национальной поисковой системе не собираетесь участвовать? Я где-то видел, что на неё предполагали выделить 400 млн. руб.
С. А.: Для проекта такого уровня на эти деньги можно лишь провести исследования и подумать о прототипировании. Такой проект “весит” значительно больше. Интернет-поисковик — штука всё-таки достаточно сложная и сложность там не в поисковых технологиях, а в том, что это реально большая информационная система, которая включает в себя, например, фильтрацию спам-сайтов, разработку качественного “паука”, собирающего данные по сайтам. Поисковики сейчас анализируют поведение пользователя и выстраивают ожидание того, что пользователь хочет, когда он набирает то или иное сочетание слов. На такой логике выстраивается довольно много ответных реакций поисковика. С течением времени эта логика может покрыть довольно существенные пласты типовых запросов, и на них поисковик сможет давать весьма правильные и качественные ответы, хотя в нём и нет какой-то развитой лингвистики. Понятно, что у этого подхода есть свои ограничения, но массовый рынок он покрывает великолепно, поэтому просто так идти и в лоб конкурировать с поисковиками нам не очень интересно. Это хорошо развитый рынок. Кроме того, нужно понимать, что бизнес поисковиков связан с рекламой, это серьёзный труд, требующий времени на его освоение. Нам более осмысленным видится создание секторного, специализированного интернет-поисковика.
PC Week: Нужны ли ABBYY суперкомпьютеры для лингвистических задач?
С. А.: У нас все компьютеры в компании соединены в grid-сеть, на них установлен специальный софт, и они работают круглосуточно, обсчитывая нашу задачу по построению семантической сети. Такой подход намного экономичнее, чем установка суперкомпьютера, для которого нужно и место, и охлаждение, но его применение возможно, если задача, как в нашем случае, хорошо распараллеливается.
PC Week: Спасибо за беседу.