Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Государство и ИТ: Статьи Новости компаний Решения «Импортозамещение в ИТ 2022»

Панорама

ViRush: управление на основе данных в условиях турбулентности

Конференция ViRush 2030, ежегодно проводимая компанией Visiology — основное событие в сфере BI на российском …

Жизнь после Jira: как выбрать российскую платформу для управления разработкой

Jira — это проверенный временем и надежный инструмент, который стал стандартом де-факто для управления разработкой …

СУБД ЛИНТЕР СОКОЛ: Будьте готовы к нагрузкам будущего уже сегодня!

Пока многие разработчики борются с наследием старого кода, мы создали будущее с чистого листа. На конференции …

Продуктовой разработке пора уходить с Jira

Крупные компании продолжают использовать Jira по инерции — это решение создавалось для небольших команд, но его …

Дарья Богун: «Обучение IT и криптовалютам скоро станет повсеместным»

Недавно завершился престижный международный конкурса Cases and Faсes, где отбирают самые инновационные и технологичные …

Прорывная технология машинного перевода и вокруг неё

PC Week/RE №9 (759) 12 апреля 2011

Эдуард Пройдаков | 29.03.2011

Сергей Андреев

ABBYY одной из первых среди российских компаний стала резидентом научно-инновационного центра “Сколково” и получила грант от одноимённого Фонда на развитие своей системы машинного перевода. Предлагаем читателям интервью её генерального директора Сергея Андреева с редакционным директором ИТ-группы изданий СК ПРЕСС Эдуардом Пройдаковым.

PC Week: Можно выделить рынок лингвистического софта, к которому относятся системы машинного перевода, распознавания речи, словари, спелчекеры, системы коррекции стиля текста и т. п. Как вы смотрите на развитие этого рынка?

Сергей Андреев: Включение в состав рынка лингвистического софта систем распознавания речи несколько условно, потому что распознавание речи состоит из двух существенных компонентов — анализа сигнала и использования контекстной информации. Этот рынок оценивается в единицы миллиардов долларов в год. При этом рынок ручного перевода, который выполняется агентствами, оценивался в прошлом году примерно в 20 млрд. долл., и он довольно быстро растёт: предполагается, что через пять лет он удвоится. Кроме того, есть Евросоюз, который конституционно обязан переводить все официальные документы на 26 языков стран-членов ЕС.

Рынок переводов мог бы быть больше, но его росту мешает нехватка людей, способных переводить. Поэтому цена за перевод балансирует между приемлемой для заказчика и исполнителя. Если бы эту цену можно было снизить, то удалось бы ещё больше увеличить данный рынок. Мы же пытаемся заметно облегчить труд переводчика, чтобы ускорить процесс раза в два и таким образом увеличить этот рынок за счёт снижения цены за перевод.

Понятно, что когда мы говорим про эти 20 млрд., то речь идет обо всех парах языков, а у нас сейчас на выходе только англо-русский и русско-английский переводчики, но концепция нашего продукта такова, что добавление каждого нового языка вызывает появление направлений перевода сразу со всеми существующими языками в системе.

Объясню немного подробнее. Центральным ядром создаваемой технологии служит Универсальная семантическая иерархия (Universal Sematic Hierarchy — USH). Дело в том, что хотя все люди на земле говорят разными словами, они используют очень похожую систему понятий. USH — это дерево понятий, универсальное для всех языков, толстые ветви которого являются более общими и универсальными понятиями (например, “путешествие”), а тонкие — более специфическими, но тоже универсальными понятиями (например, “командировка”). Слова каждого нового языка подвешиваются как листочки к ветвям USH. Проект нешуточный, но и выход ожидается большой, поэтому компания вкладывается в него и готова рисковать. Через некоторое время это лингвистическое направление для нас будет основным, поскольку потенциал здесь очень большой — возможны решения, связанные с поиском, распознаванием речи, реферированием, аналитикой, конкурентной разведкой и т. д. Есть очень большой потенциал для ветвления базовой технологии, благодаря которому можно получить вещи совершенно удивительные.

PC Week: Всё более популярным становится анализ неструктурированных текстов. Можно сказать, что это одна из ваших будущих областей?

С. А.: Дело в том, что технологии, которые для этого используются, — это в основном решения, сильно ориентированные на некую определенную задачу, под которую делаются описания, детальная настройка. Проблема в том, что если нужно поменять вопросы, то приходится делать глобальную перенастройку. То, что делаем мы, носит универсальный характер — технологию можно использовать как для анализа текста, так и для систем машинного перевода. Сейчас массового рынка для систем анализа данных нет. Что касается систем машинного перевода, то потребительский рынок закрыт бесплатной системой перевода от Google.

PC Week: Но там же отвратительное качество...

С. А.: Ну, не всегда блестящее, соглашусь. С другой стороны, этот сервис есть, и он бесплатный. Поэтому перетянуть на себя обычных интернет-пользователей очень сложно. Вкладывая в проект большие средства и силы, мы, конечно, в первую очередь будем выходить на корпоративный рынок. Версия для массового пользователя может использоваться только для продвижения продукта, но это не фокус при его разработке. Опять же перевод публикаций СМИ — вещь для перевода очень непростая, поскольку в них присутствует много эмоциональной окраски.

PC Week: С другой стороны, есть такие направления, как корпоративная разведка, в которой автоматический анализ публикаций очень важен...

С. А.: Наша технология позволяет найти в потоке документов информацию, которую компании могут не очень-то хотеть демонстрировать явно (например, выявить какие-нибудь связи между предметами, лицами или сущностями).

PC Week: Насколько это система подходит для систем распознавания командных языков, например для роботов?

С. А.: Для систем распознавания обычной речи система очень полезна, поскольку приходящий с микрофона речевой сигнал достаточно искажён и звуковой информации не всегда хватает для распознавания. Это заметно, когда разговариваешь в другой стране, например, называя своё имя при регистрации в гостинице. Поскольку у собеседника нет контекста, он просит вас произнести фамилию по буквам. Или когда человек в беседе на родном языке начинает произносить слова, которых не знает другой собеседник. Тот тоже начнёт переспрашивать. Получается, что без контекста человеку трудно распознать речь. Поэтому, если есть какая-то система, понимающая контекст и добавляющая недостающую информацию к распознаванию самого сигнала, то качество распознавания заметно улучшается. Понятно, что при распознавании ограниченного командного языка достаточно и обычного распознавания, а если потребуется расширение входного языка, то придётся довешивать работу с контекстом. Я слышал, что сейчас около половины запросов Google с мобильного телефона — голосовой ввод. При этом мы видим, что пока нет нормальной технологии, которая может решить эту задачу. Она решается на ограниченном контексте. Так, при вводе запроса в поисковик в каждый момент вываливаются подсказки, какие слова искали люди, и при большой статистике они таким образом сильно ограничивают словарь в момент, когда происходит распознавание.

PC Week: Что даёт вам переход в Сколково?

С. А.: Этот ход очень разноплановый. Сначала у меня было сдержанное отношение к этому проекту, но потом по мере контактов с организаторами отношение начало меняться в более позитивную сторону. Дело в том, что они собрали неплохую команду. А это немаловажно. Когда ты собираешь правильных людей, то это даёт определённые надежды. Конструкция, предложенная в Сколково, опирается на связку из нескольких ключевых моментов: во-первых, образование. Во-вторых, бизнес, который связан с этим образованием. В-третьих, там присутствует научный компонент, причём опять-таки в сочетании с вузами. Как известно, в СССР наука была в основном отделена от образования, от университетов. Сейчас в проект пытаются втянуть ведущие иностранные университеты и по их модели организовать исследовательские и образовательные площадки. Ещё один важный момент — там есть инвестиционный департамент, который инвестирует сам в какие-то проекты и настроен на создание бизнес-инкубаторов, чтобы возникла среда, в которой интересные новые идеи доводятся до воплощения. Всё это вместе взятое интересно для нас, поскольку то, чем мы занимаемся, действительно наукоемко. И если посмотреть на корни этой работы, то они кроются в серьёзных исследованиях российской лингвистики, и мы с уважением относимся и к российскому лингвистическому образованию, и к учёным из данной области. Этот научный багаж используется. У нашей компании есть кафедра в Физтехе, есть отношения с МГУ и РГГУ. Сколково даёт также возможность подтягивать учёных из-за границы, поскольку там есть на это определённые фонды.

PC Week: А потребность в привлечении иностранных лингвистов у вас есть?

С. А.: С одной стороны, пока мы концентрировались на русском и английском языках, мы были вполне самодостаточны, но поскольку мы подходим к точке ветвления, когда начинают добавляться другие языки, и приближаемся к высокой готовности самих продуктов и технологий, то возникает интересное сочетание факторов. Мы сейчас фактически находимся в предпродажной точке развития этой технологии — уже показываем систему крупным клиентам и начинаем с заинтересованными организациями прорабатывать конкретные пилотные проекты. То же самое происходит, например, в Еврокомиссии, которая выделяет серьёзные бюджеты на решение задач перевода, и мы сейчас тоже активно пытаемся войти в их проекты. В настоящий момент такие проекты достаточно сильно опираются на европейское научное сообщество — университеты, лаборатории, группы при университетах являются исполнителями в таких проектах. Здесь возможно создание общей среды, поскольку они компетентны в данной области. Мы предполагаем, что если им показать наши достижения, то можно договариваться о какой-то совместной деятельности, о каком-то развитии нашей системы на основе их наработок. В итоге можно попытаться из различных элементов сложить эту мозаику, чтобы получить целостную картину, которая может иметь разноплановое и очень разностороннее развитие как в научном, так и в образовательном плане.

У европейцев наш подход вызвал приятное удивление, поскольку в последнее время компьютерная лингвистика сильно сдвинулась в сторону статистических методов — это было модно и ново, но сейчас эйфория проходит, поскольку видно, что статистика может многое, но у неё есть очевидные пределы, через которые трудно перешагнуть. Это, в частности, заставило искать сочетание систем, основанных на правилах со статистикой. Мы изначально глубоко задумались над этим и статистику используем, но для верификации гипотез, а не для непосредственного получения перевода. Это и вызывает удивление и энтузиазм. Мне кажется, что в современном мире люди больше настроены на сотрудничество, чем на попытку всё съесть самому. Положительный потенциал для нормального сотрудничества есть. Кроме того, пока мы показываем перевод русский — английский, это не такой большой рынок, чтобы вызвать конкурентные опасения.

Кроме интересной среды, Сколково для нас интересный коммерческий проект: он привлекает внимание общественности, в частности очень интересных людей и компаний — потенциальных партнеров. Там есть такие хорошие вещи, как налоговый спецрежим, он лучше, чем налоговые льготы для ИТ-компаний. Там предполагается более мягкое иммиграционное законодательство, и нам там легче будет устроить к себе на работу иностранцев.

PC Week: Расскажите об истории вашего проекта. Как он развивался? Какие возникали проблемы?

С. А.: Проекту уже около пятнадцати лет. Поначалу в нём работало несколько человек, и они занимались в основном исследовательскими вещами — проверялись концепции. Серьёзная проработка началась примерно шесть лет назад, а года два назад были пройдены критические технологические риски. Одним из таких рисков являлся комбинаторный взрыв — когда при анализе сложного предложения может породиться экспоненциальное количество гипотез, прежде чем выяснится, какая из них корректна и предпочтительна с учетом контекста. Было довольно много технологических проблем, которые пришлось преодолевать. В итоге два года назад стало понятно, что система собирается, она стабильна и она развивается. Сейчас идёт доводка системы, чтобы она получила значительное преимущество по качеству перевода над конкурентами. Очень важно отметить, что мы в этой системе пока не видим такого явления, как насыщение качества — когда мы делаем изменения, то в ответ на наши усилия мы видим стабильный рост качества перевода. По системам предыдущего поколения было заметно, что в какой-то момент они стали выходить на уровень насыщения, при котором рост качества начинает сильно затормаживаться. Кроме того, существует масса задач, которые могут быть решены с помощью нашей универсальной технологии, например, умный поиск — вещь гораздо более востребованная, чем тот же самый машинный перевод.

PC Week: В национальной поисковой системе не собираетесь участвовать? Я где-то видел, что на неё предполагали выделить 400 млн. руб.

С. А.: Для проекта такого уровня на эти деньги можно лишь провести исследования и подумать о прототипировании. Такой проект “весит” значительно больше. Интернет-поисковик — штука всё-таки достаточно сложная и сложность там не в поисковых технологиях, а в том, что это реально большая информационная система, которая включает в себя, например, фильтрацию спам-сайтов, разработку качественного “паука”, собирающего данные по сайтам. Поисковики сейчас анализируют поведение пользователя и выстраивают ожидание того, что пользователь хочет, когда он набирает то или иное сочетание слов. На такой логике выстраивается довольно много ответных реакций поисковика. С течением времени эта логика может покрыть довольно существенные пласты типовых запросов, и на них поисковик сможет давать весьма правильные и качественные ответы, хотя в нём и нет какой-то развитой лингвистики. Понятно, что у этого подхода есть свои ограничения, но массовый рынок он покрывает великолепно, поэтому просто так идти и в лоб конкурировать с поисковиками нам не очень интересно. Это хорошо развитый рынок. Кроме того, нужно понимать, что бизнес поисковиков связан с рекламой, это серьёзный труд, требующий времени на его освоение. Нам более осмысленным видится создание секторного, специализированного интернет-поисковика.

PC Week: Нужны ли ABBYY суперкомпьютеры для лингвистических задач?

С. А.: У нас все компьютеры в компании соединены в grid-сеть, на них установлен специальный софт, и они работают круглосуточно, обсчитывая нашу задачу по построению семантической сети. Такой подход намного экономичнее, чем установка суперкомпьютера, для которого нужно и место, и охлаждение, но его применение возможно, если задача, как в нашем случае, хорошо распараллеливается.

PC Week: Спасибо за беседу.

Печать Печать без изображений

Ссылка на статью: [URL=http://www.pcweek.ru/gover/article/detail.php?ID=129782]Прорывная технология машинного перевода и вокруг неё[/URL]

Можно подумать, что перевод важнее для безопасности государства,
чем разработки в области ИИ для умирающего машиностроения РФ!
Пилите Шура, пилите.

Турта В.Г.
09.04.2011 08:06:50

И на что же это Вы так обижены, дорогой г-н Турта?
Надо заниматься всем - я рад, что российская комания производит конкуретноспособный на мировом рынке продукт, используя при этом опыт фундаментальной науки

М.М. Макарцев
01.07.2011 01:03:46

Да я в принципе тоже рад за Давида!
Только зная, что происходит сейчас в области сознания ИИ для машиностроения во всем мире я утверждаю, что все эти попытки модернизации катастрофически отставшего машиностроения, в разы отстающего по ПТ от запада, пустая говорильня и полное не владение вопросом. И уж никакой супер алгоритм машинного перевода не спасет державу от надвигающейся катастрофы.

Турта В.Г.
01.07.2011 10:59:26

Витек просто не может поверить, что на какой-то проектик выделяют деньги, а на его Мега-Супер-Прорывную технологию, которая не приносит ни копейки дохода - кукиш.

Доброго здоровьица!

Гость
16.07.2011 16:35:54

Цитата
Гость пишет: Витек просто не может поверить, что на какой-то проектик выделяют деньги, а на его Мега-Супер-Прорывную технологию, которая не приносит ни копейки дохода - кукиш.

Как раз верю.
И ни Витек, а Виктор Григорьевич. Витьком я был 50 лет назад, когда был никто.
А сегодня мне 56 лет. Из них 30 я потратил специально на приобретение знаний, для реализации своей цели, поставленной еще в молодости, создание интеллектуальных систем, принеся в жертву этой цели все остальное. Зато теперь меня ни кто не достанет в обозримой перспективе в профессиональном плане. Я состоялся как ученый, сделав научное открытие, как инженер, создав технологию за реализацию которой мне сегодня на заводе платят деньги (это по поводу того, что "не приносит ни копейки дохода"), и расчитываю в ближайшем будущем развернуть бизнес. Без помощи государства.
А вот государство модернизацию промышленности без интеллектуальных систем не проведет точно! И уж тем более не увеличит ПТ в 3-4 раза.
А я государство предупреждал что будут и интеллектуальные системы и облака...
Еще в 2006г. http://turta.narod.ru/president.htm
То ли еще будет... Придется видимо государству ЧМ по футболу отменять, или олигархам сбрасываться на мой проект, иначе...

Виктор Турта
18.07.2011 20:13:07

Только зарегистрированные пользователи могут оставлять комментарий.

Регистрация
Авторизация

13-й ежегодный Russian Enterprise Content Summit 2026, 11.02.2026

	Интересно

Статьи по теме

Gartner: к 2027 году 35% стран будут привязаны к региональным ИИ-платформам

Согласно новому исследованию Gartner, геополитическое, регуляторное и связанное с безопасностью давление побуждает …

Растущее регулирование в сфере ИИ требует изменения мышления

Искусственный интеллект настолько силен, насколько сильна основа, на которой он построен, однако многие компании …

О некоторых особенностях проектирования ВКС-систем в государственных учреждениях

Стандарты клиентоцентричности требуют от государственных учреждений «применения современных технологий построения процессов …

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Прорывная технология машинного перевода и вокруг неё

Сергей Андреев

Комментарии