Профессор Игорь Машечкин, заведующий лабораторией технологий программирования кафедры автоматизации систем вычислительных комплексов факультета вычислительной математики и кибернетики (ВМК) МГУ им. М. В. Ломоносова, рассказывает обозревателю PC Week/RE Сергею Бобровскому о новой университетской магистерской программе “Аналитика больших данных” и о взаимоотношениях вуза и ИТ-компаний.
PC Week: Как зародилась идея создания новой магистерской программы?
Игорь Машечкин: На протяжении многих лет мы занимаемся разработкой новых технологий построения интеллектуальных программных систем, основанных на применении методов интеллектуального анализа данных и машинного обучения. Идея магистерской программы “Аналитика больших данных” появилась как результат анализа и обобщения этих работ. Она создана совместными усилиями кафедр автоматизации систем вычислительных комплексов и математической статистики. Специалисты в этой области должны владеть как развитым математическим аппаратом, так и практикой современных ИТ. И в этой части наша программа как раз и призвана интегрировать фундаментальную математическую подготовку и технологическую, связанную с использованием и разработкой современных ИТ.
Университетское образование отличается от инженерного тем, что человека хорошо обучают фундаментальным предметам, чтобы он мог быстро адаптироваться к разнообразию и специфике решаемых задач. В инженерии идёт более “жёсткое” обучение конкретным технологиям. Наша задача — подготовить специалиста думающего, который сможет принимать новое, быстро адаптироваться и решать сложные задачи построения современных информационных решений. Разработка сложных аналитических систем, систем обработки больших данных требует от исполнителя не столько технического владения средствами программирования, сколько понимания сложных взаимозависимостей между представлениями данных, используемыми алгоритмами, сценариями функционирования таких систем. Данный процесс трудоемкий и требует значительных трудозатрат как со стороны обучаемых, так и со стороны обучающих.
PC Week: Можно ли дать формальное определение больших данных?
И. М.: Единого, общего формального определения нет. Можно сказать так: это данные, объем и сложность которых таковы, что для их обработки, анализа и хранения требуются специальные методы и подходы. Таких задач в современном мире очень много. В частности, это задачи технологической, информационной безопасности, задачи, связанные с фармакологией, обработкой текстовой информации.
Проблематика больших данных возникла не на год и не на два, это задача надолго. И нельзя сказать, что зародилась она с появлением термина Big Data, просто сейчас решили поднять это дело как знамя. И это очень хорошо. Как в своё время у всех на слуху появились нанотехнологии, информационная безопасность, интеллектуальный анализ данных, так сейчас образовалась тематика обработки и анализа больших данных.
PC Week: Ведётся ли у вас научная работа в этой сфере?
И. М.: Работы по этой тематике идут по самым разным направлениям, в том числе и фундаментальные исследования (разработка алгоритмов и методов). У нас есть наработки в области решения задач информационной безопасности, анализа ситуационной информации — когда, например, в некоторую территориально разнесённую организацию из множества источников стекается информация о состояниях, какие-то текстовые сообщения, идёт большой поток разнородной структурированной и неструктурированной информации. Этот поток можно обрабатывать, выявлять всякого рода полезные знания, прогнозировать развитие ситуации и т. д. У нас есть значительный практический опыт работ в этой области. Один из наших инициативных проектов поддержан Сколковом. Это проект, связанный с анализом компьютерной поведенческой биометрии. Собирая различные сведения о том, как пользователи работают разными компонентами вычислительной системы, с контентной информацией, можно строить модели поведения как отдельных пользователей, так и их групп. В дальнейшем возможно использование построенных моделей для решения различных актуальных прикладных задач. Таких, как активная аутентификация пользователя, позволяющая осуществлять контроль входа в систему на основе поведенческого теста без использования “секретной” информации (например, паролей), или фоновая непрерывная поведенческая идентификация пользователя во время работы в системе. Такие подходы позволяют решать крайне важные задачи информационной безопасности, например задачу раннего обнаружения внутренних вторжений.
Эти исследования идут плечом к плечу с передовыми мировыми работами. Например, с 2011 по 2013 гг. американское военное агентство DARPA объявило ряд конкурсов по аналогичным темам.
PC Week: Что заложено в основу магистерской программы?
И. М.: Её основанием стал опыт, накопленный на всем ВМК и, в частности, на кафедрах автоматизации систем вычислительных комплексов и математической статистики в области исследований и разработки технологий построения специализированных программных систем, основанных на использовании методов интеллектуального анализа данных. Мы работаем над задачами как фундаментальными, в том числе алгоритмическими, так и прикладными: у нас есть готовые технологии, есть построенные на их основе специализированные интеллектуальные системы. Например, на основе наших технологий несколько лет назад была разработана интеллектуальная система безопасности для Счётной палаты РФ, обеспечивающая защиту от внутренних вторжений. Мы интегрировали тематику распределённого хранения и обработки данных, такие популярные технологии, как Hadoop, и интеллектуальный анализ данных. Тут есть своя техническая специфика, и нужно, чтобы у студентов была база и в одном, и в другом. Чтобы они понимали, что такое, например, Hadoop, MapReduce и что такое регрессионный анализ.
PC Week: Кто придумал идею этого курса и зачем?
И. М.: Идея курса придумана здесь, в этих стенах. Мы довольно долго занимаемся интеллектуальным анализом данных, тем, что называется Data Mining. Нам ясно, что подготовка в обработке больших данных сейчас востребована. Пока этот курс существует в виде программы, он ещё не начал реализовываться. Мы организовали предварительные спецкурсы, подготовив их совместно с компанией SAS. Мы планируем обучать от 50 до 60 человек.
PC Week: Будет ли у студентов возможность применить фундаментальные знания на практике?
И. М.: Мы пытаемся совместить опыт университета с опытом ведущих мировых производителей. В частности, в этом году у нас заключено соглашение о сотрудничестве с SAS, которая практически бесплатно поставляет нам лицензии на свои аналитические продукты: мы можем их использовать для научных работ, в целях обучения. В рамках упомянутых совместных спецкурсов мы как раз пытаемся объединить фундаментальные знания, фундаментальные задачи, алгоритмы и методы с теми передовыми решениями, которые представляет компания для проведения аналитики.
PC Week: В какие структуры идут работать ваши выпускники?
И. М.: Основная масса идёт в бизнес самых разных размеров. Но многие компании, я считаю, занимаются в некотором смысле браконьерством: вместо того чтобы создать условия для высококачественной подготовки студентов, они пытаются забирать их на работу с третьего курса якобы для стажировки, под частичную занятость, а реально на полное время. И образование на этом заканчивается. Здесь хотелось бы сослаться на опыт ведущих зарубежных вузов. Во многих из них запрещается работа студентов “на стороне”. Возможна работа только в лабораториях или в университетском городке, причем время занятости существенно лимитируется. И это понятно почему. Всегда была разница между очным, вечерним и заочным образованием. Сейчас понятие очного образования размывается за счет работы студентов, что безусловно сказывается на качестве подготовки специалистов.
PC Week: А SAS тоже браконьерствует?
И. М.: Нет. Я критически отношусь к этим проблемам и после подписания совместного договора наблюдаю: они действительно приглашают студентов на стажировки. Но это абсолютно контролируемая занятость, сохраняется главенство учебного процесса. В таком плане SAS являет собой хороший пример.
PC Week: Вы рассказывали о собственных проектах по обработке множества источников данных самых разных форматов. Зачем вам тогда, условно говоря, SAS?
И. М.: Мы не столь самоуверенны, чтобы сказать, что конкурируем с продуктами SAS. Это мощнейший, гибкий инструмент. Но есть задачи, для которых требуются еще более тонкие решения.
PC Week: Не возникает ли ситуация, когда выпускник приходит на работу, а ему говорят классическое “забудьте всё, чему вас учили в университете”?
И. М.: Не думаю. Сейчас есть другая проблема. Не всегда ИТ-менеджмент компаний понимает специфику современного развития информационных технологий. К примеру, имеется проблема внедрения на нашем рынке интеллектуальных продуктов, которые требуют специальных решений, основанных на сборе и аналитической обработке данных, наличия специально подготовленных специалистов-аналитиков. Это задачи, подразумевающие очень высокий уровень квалификации как исполнителя, так и потребителя, понимание им специфики и т. д. И вот здесь у нас есть, к сожалению, разрыв.
PC Week: Какие-нибудь книги на тему больших данных сегодня выпускаются?
И. М.: Западные книги есть, но они не столь активно переводятся и издаются у нас. Хотя я думаю, что это всё появится, потому что данное направление сейчас на слуху.
PC Week: Что по данной теме происходит в других вузах?
И. М.: Достаточно зайти на сайт любого ведущего зарубежного вуза, и мы найдём подобные программы. Они могут быть двух разновидностей. Одна — инженерная, где в большей степени фигурируют инструменты, технологии. А другая фундаментальная. Наше же основное желание — это думающий специалист. Актуальность кодировщиков немножко ушла, сейчас нужны специалисты, владеющие аналитическими методами, — за ними основная ценность.
PC Week: Могли бы вы оценить рынок больших данных в мире, в России?
И. М.: Рынок колоссальный, потому что это везде и всюду. Возьмём любую отрасль: наука, промышленность, бизнес, банки и страховые компании — везде есть большие данные. Например, задача выявления финансового мошенничества. Когда есть большой поток транзакций, надо научиться выявлять те из них, которые являются неправильными. Та же история с медициной, производством и т. д. И России никуда не деться. Так или иначе у нас будут заниматься интеллектуальными методами финансовой безопасности, ИТ-безопасности, у нас занимаются работой, связанной с биомедициной, и прочее, и прочее.
PC Week: Какой совет стартапам в сфере больших данных вы можете дать?
И. М.: От стартапа требуется, чтобы созданный продукт можно было быстро начать продавать. Внедрение систем интеллектуальной обработки больших данных обладает своей спецификой. Во многих случаях потребитель хочет иметь “большую красную кнопку”, на которую нажал — и у тебя все проблемы решились. Но интеллектуальные системы требуют, чтобы у потребителя были аналитики, понимающие специфику интеллектуальных систем и способные с ними работать. Интеллектуальная система только помогает аналитику в решении проблемы, но за него всё не решает. Вот пример. Если бы на Саяно-Шушенской ГЭС собирались параметры работы со всех объектов и использовались интеллектуальные методы их обработки, то скорее всего можно было бы заранее выявить аномалии показателей и оперативно проинформировать аналитика-оператора о развитии потенциально опасной ситуации.
PC Week: Спасибо за беседу.