Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Идеи и практики автоматизации: Статьи Новости компаний Решения

Панорама

Жизнь после Jira: как выбрать российскую платформу для управления разработкой

Jira — это проверенный временем и надежный инструмент, который стал стандартом де-факто для управления разработкой …

ViRush: управление на основе данных в условиях турбулентности

Конференция ViRush 2030, ежегодно проводимая компанией Visiology — основное событие в сфере BI на российском …

Молодой хостинг VS старый рынок: как UFO.Hosting использует свой возраст как преимущество

Хостинг — одна из тех ниш, где внешне мало что меняется. Даже несмотря на то, что это IT и технологии …

Продуктовой разработке пора уходить с Jira

Крупные компании продолжают использовать Jira по инерции — это решение создавалось для небольших команд, но его …

СУБД ЛИНТЕР СОКОЛ: Будьте готовы к нагрузкам будущего уже сегодня!

Пока многие разработчики борются с наследием старого кода, мы создали будущее с чистого листа. На конференции …

Большие данные: время пришло

PC Week №1 (922) 24 января 2017

Сергей Свинарев | 22.12.2016

Роман Баранов, руководитель направления бизнес-аналитики и хранилищ данных, КРОК

Андрей Горяйнов, заместитель генерального директора, представительство SAP в СНГ

Александр Дмитриев, руководитель практики управления информацией, BI Partner (ГК “Ай-Теко”)

Антон Заяц, директор по развитию бизнеса, представительство SAS в России и СНГ

Андрей Орлов, специалист по большим данным и управлению информацией, представительство IBM в России и СНГ

Андрей Пивоваров, руководитель группы перспективных технологий предпроектного консалтинга, представительство Oracle в СНГ

Ольга Рубцова, заместитель генерального директора, “Техносерв Консалтинг”

Дмитрий Рукавишников, руководитель отдела инфраструктурных решений департамента системной интеграции, “ИНЛАЙН ГРУП”

Александр Смирнов, Hadoop-евангелист подразделения Think Big, представительство Teradata в России

Владимир Соловьев, руководитель департамента анализа данных, принятия решений и финансовых технологий, Финансовый университет при Правительстве РФ

Алексей Степанов, начальник отдела информационных технологий, “Челны-Лифт”

Концепции Hadoop, лежащей в основе технологии больших данных, в этом году исполнилось десять лет. Хотя сам термин Big Data в современном его понимании возник на два года позже, сегодня можно говорить о том, что смысл его большинству специалистов вполне понятен. Тем не менее широкое применение данную технологию еще только ожидает. Особенно это касается нашей страны. Первопроходцы есть и в России, но немало и тех компаний, которые с осторожностью относятся к Big Data. Не всегда понятно, какие задачи сможет решать каждое конкретное предприятие, каков будет экономический эффект, насколько велики затраты на подобные проекты, с какими требованиями регуляторов придется считаться и т. д. Недавно о том, что основные подходы к регулированию больших данных в России должны быть выработаны до конца года, сообщил помощник президента РФ Игорь Щеголев. Для обсуждения указанных вопросов мы обратились к экспертам из ряда ведущих ИТ-компаний.

Наряду с известными строгими определениями термина иногда для краткости говорят, что Big Data — это возможность на новой технологической базе компьютерной обработки таких объемов данных, которые прежде были недоступны. Но ведь так было всегда. Каждый новый технологический прорыв расширял сферу данных, с которыми работали пользователи. Что же принципиально нового вносит концепция Big Data?

По мнению руководителя направления бизнес-аналитики и хранилищ данных компании КРОК Романа Баранова, несмотря на то что за Big Data стоит целый ряд известных продуктов, сама концепция не несет в себе что-то принципиально новое. На нее следует смотреть скорее как на маркетинговый термин, который сегодня очень моден в среде высших руководителей бизнеса. При этом само наличие Big Data в названии проекта позволяет существенно упростить процесс согласования необходимости внедрения того или иного решения, даже если оно имеет весьма условное отношение к Big Data.

С ним солидарен руководитель отдела инфраструктурных решений департамента системной интеграции компании «ИНЛАЙН ГРУП» Дмитрий Рукавишников: «На мой взгляд, ничего принципиально нового данная концепция не вносит, это новый маркетинговый термин для старых технологий и подходов. Все теоретические основы и математический аппарат были известны еще в 1970–1980 гг. Уже тогда ученые занимались обработкой данных и многомерным статистическим анализом. Тем не менее и сейчас сохраняется огромный разрыв между описанием бизнес-явления, его математической моделью, постановкой задачи, использованием алгоритма обработки данных и специализированным ПО».

Впрочем, большинство опрошенных нами экспертов подобный скептицизм не разделяют. «Big Data зачастую характеризуют в виде подхода трех V (Volume, Velocity, Variety), который и описывает основные характеристики больших данных: разнообразие типов (часто непредсказуемое заранее), огромный и постоянно растущий объем данных и требуемая высокая скорость их обработки для получения на этой базе полезной информации, — напоминает заместитель генерального директора представительства компании SAP в СНГ Андрей Горяйнов. — Эти три характеристики обуславливают значительные вызовы для традиционных реляционных БД, которые, как правило, не справляются с подобными задачами даже при масштабировании вычислительных мощностей — здесь нужны новые подходы к обработке и хранению данных».

По мнению руководителя группы перспективных технологий предпроектного консалтинга представительства компании Oracle в СНГ Андрея Пивоварова, с появлением Big Data просто реализовалась технологическая и экономически доступная возможность хранить и обрабатывать все данные, имеющиеся в компании. Руководитель практики управления информацией компании BI Partner (ГК «Ай-Теко») Александр Дмитриев обратил внимание на то, что технологии, которые сейчас мы ассоциируем с Big Data, появились значительно раньше самих больших данных. Рождению же термина мы обязаны исключительно стремительному распространению мобильных устройств с доступом во Всемирную сеть, социальных сетей и различных сервисов, предоставляемых через Интернет. Принципиальное отличие больших данных от традиционной бизнес-аналитики в том, что они плохо структурированы, а на этапе сбора и интеграции таких данных может отсутствовать четкое понимание, как они впоследствии будут использованы.

Делать ли ставку на Big Data

Российским компаниям важно понять, останется ли технология Big Data неким экзотическим инструментом для решения специфических задач крупных компаний или со временем она займет место нынешних подходов работы с данными? Ведь если справедливо последнее, то к переходу на Big Data рано или поздно придется приступить всем предприятиям, вопрос лишь в том, когда начать этим заниматься.

«Концепция Big Data действительно для бизнеса сегодня является своего рода экзотикой, — соглашается Роман Баранов. — И связано это в первую очередь с тем, что она в основном базируется на технологиях и продуктах, которые выросли из Open Source, в то время как ИТ-инфраструктура большей части российских компаний построена на коробочных решениях крупных зарубежных вендоров. Такое положение вещей создает определенные сложности при внедрении и эксплуатации. Но продлится это еще недолго — около года».

«Технологии Big Data уже де-факто не являются экзотическим инструментом, поскольку применяются во многих банках, телекоммуникационных компаниях и розничных сетях (например, в Альфа-банке, ВТБ24, Wargaming, Caixa Bank и др.), — возражает Андрей Пивоваров. — Всем подобным компаниям, если они хотят быть конкурентоспособными в среднесрочной перспективе, будут нужны большие данные. Внедрение соответствующих технологий может быть реализовано либо через самостоятельное развертывание программно-аппаратной инфраструктуры и найм нужных специалистов, либо через закупку услуг Big Data у других компаний».

«Конечно, можно продолжать по старинке нанимать сотни аналитиков, которые в полуручном режиме, не прибегая к помощи Big Data, будут анализировать данные и давать рекомендации, но это очень долго и дорого», — убеждена заместитель генерального директора компании «Техносерв Консалтинг» Ольга Рубцова.

Все участники опроса сходятся в том, что технологии Big Data не заменяют нынешние подходы (реляционные СУБД и BI), а успешно дополняют их. «Традиционные подходы реализуют в основном получение точного результата, такого, например, как средний чек участника программы лояльности, — считает Андрей Горяйнов. — Главные задачи Big Data — это анализ мощных потоков данных в реальном времени или использование математических методов для поиска скрытых закономерностей и построения прогнозных моделей поведения тех или иных сущностей».

«Конечно, большим компаниям сделать это намного проще — их ИТ-бюджеты позволяют внедрять подобные системы, — убежден сертифицированный технический специалист по большим данным и управлению информацией представительства IBM в России и СНГ Андрей Орлов. — Но благодаря облачным технологиям к большим данным присматриваются и менее крупные предприятия». По мнению Александра Дмитриева, новые возможности, открывающиеся при правильном обращении с большими данными, не обязательно зависят от размера бизнеса. Большинство «выгодоприобретателей» будут покупать только результаты обработки больших данных. К примеру, недавно Сбербанк анонсировал запуск проекта «Открытые данные», в рамках которого можно будет заказать на платной основе отчеты с агрегированной по заказу клиента информацией.

«У обычных компаний нет никакой необходимости переходить на технологии Big Data, — убежден директор по развитию бизнеса представительства компании SAS в России и СНГ Антон Заяц. — У них нет задач для таких решений. Если же компания работает с большим объемом данных — будь то клиентские данные, данные с внешних устройств, данные из открытых источников, то, конечно, рано или поздно она может прийти к тому, что нужно удешевлять и ускорять методы их обработки. Но это должно быть продиктовано бизнес-необходимостью и экономической целесообразностью».

Большие данные и ИТ-рынок

Оценивая ситуацию в России, важно знать, создадут ли технологии Big Data в случае их успеха новые точки роста ИТ-рынка и в каких сегментах это может произойти?

«Рынок Big Data растет и будет расти на десятки процентов в год, что, очевидно, создаст точки роста для существующих и новых ИТ-компаний, — убежден Андрей Горяйнов. — Бизнес-сценарии, которые являются драйверами этого роста, существуют практически во всех отраслях. Это, например, исследования приверженности потребителей к бренду, профилактические ремонты оборудования, поиск лекарств от рака, рекомендации покупателям магазина, мониторинг мошенничеств, управление качеством стальной отливки, предсказание социального недовольства и т. д.».

По мнению же Дмитрия Рукавишникова, такие точки роста появятся только в определенных сегментах рынка, связанных с услугами B2C: в ритейле, где важно понимать поведенческие модели потребителей; продаже услуг, опирающейся на формирование огромного количества профилей потребителя; PR и рекламе; медиахолдингах, которым нужно хранить и осуществлять управление разнородным контентом; на транспорте (управление трафиком в мегаполисе); в энергетике (управление энергохозяйством большого города); телекоме; в компаниях, эксплуатирующих крупные CRM-системы. «Говорить о том, что Big Data создает какие-то принципиальные точки роста, не совсем корректно, — считает Ольга Рубцова. — Однако при правильном использовании любого инструмента и наличии квалифицированных специалистов всегда нарабатывается хорошая база уже готовых практик».

Андрей Пивоваров видит гораздо больше стимулов со стороны Big Data для роста ИТ-рынка: «Кластеры собственной сборки уступят место готовым решениям, поскольку создание, управление и поддержка систем, построенных на Hadoop и других быстроразвивающихся технологиях, своими силами требует больших финансовых и трудовых затрат. Получит развитие виртуализация данных: разработчики и аналитики не хотят знать, где именно находится разнородная информация, и ограничивать себя только теми методами обработки, которые поддерживаются хранилищем данных. Большие перспективы сулит симбиоз облачных технологий и Интернета вещей (IoT). Глобальные компании, вынужденные сокращать расходы и соблюдать нормативные требования нашей страны, станут все чаще размещать гибридные облачные сервисы в региональных ЦОДах, выступающих в роли локального представителя более крупного облачного провайдера. С целью защиты личных данных увеличится спрос на системы, позволяющие разбивать документы и данные на группы с предопределенной политикой доступа, маскирования и защиты».

По мнению Романа Баранова, более верно говорить не об ИТ-, а о Digital-рынке, как о более широком понятии, которое включает в себя и ИТ, и бизнес. Точки роста будут и, в первую очередь, в сегменте e-commerce. В качестве примера можно привести продажи услуг логистики. «Основной этап, когда рынок разбирался, кому и для чего нужны такие инструменты, прошел, — полагает Антон Заяц. — Поэтому говорить, что появятся еще какие-то дополнительные точки роста, поздно. Эти точки роста уже есть. Например, концепция Интернета вещей выросла из Big Data. Все, что связано с анализом неструктурированной информации, изображений и звука, все, что сейчас называют искусственным интеллектом и Deep Learning, тоже появилось благодаря возможности дешево обрабатывать большие объемы данных. На сегодня это и есть новые точки роста рынка».

С чего начать

Какие из областей и сценариев применения Big Data лучше всего подходят для первой реализации в российских компаниях? И есть ли примеры успешных, или хотя бы стартовавших, проектов такого рода в нашей стране?

«Все зависит от креативности и управленческой смелости руководства предприятий, внедряющих подходы Big Data, — убежден Андрей Горяйнов. — Почти на каждом из них есть источники объемных, разнотипных, структурированных и неструктурированных данных. Почти везде найдутся „узкие места“. У наших клиентов, как в B2C, так и в B2B, большой интерес вызывают сценарии поиска оптимальных предложений покупателям, оценки профиля потребления электроэнергии домохозяйствами, предсказания дефектов слябов по качеству плавки. Успешных проектов такого рода уже довольно много — в маркетинге и продажах телеком-компаний и банков, а также для прогнозирования ремонтов в промышленности, энергетике и транспорте».

«Проще всего делить сценарии освоения технологий Big Data на две большие группы, которые можно условно назвать „делаем то же, что делали, только лучше и дешевле“ и „что-то новое, чего не делали никогда“, — рассуждает Александр Смирнов. — Классическим примером первого подхода, а заодно и отличным вариантом для первого опыта внедрения Big Data может служить выгрузка „холодных“ данных из корпоративного хранилища (КХД) в Hadoop. Это хорошо понятный и легко обсчитываемый с точки зрения экономии денег кейс. Зачем хранить в КХД данные, которые почти не используются, проще и логичнее вынести их на технологическую платформу со значительно более низкой себестоимостью хранения данных. Каждый наш заказчик имеет если не завершенные, то хотя бы стартовавшие проекты в области Big Data».

По мнению Романа Баранова, в российских компаниях Big Data будет применяться, в первую очередь, там, где дорого и сложно внедрять традиционные технологии. В качестве примера можно привести решение, необходимое для исполнения ряда регулирующих бизнес законов, в том числе и для коллекторского рынка. Опыт КРОКа показывает, что использование традиционных технологий для подобных задач потребовало бы значительно больше финансовых вливаний и времени на реализацию. Андрей Пивоваров констатирует, что проекты Big Data уже ведутся в ряде крупных российских телеком-операторов и банков. Они нацелены, в частности, на глубокое изучение поведения клиентов с целью предложения им новых продуктов и услуг, а также на удешевление инфраструктуры аналитической обработки данных. Дмитрий Рукавишников упомянул в качестве примера проекты в интернет-компаниях (Yandex, Avito) и в ФНС, а Андрей Орлов — проекты построения системы персонализации предложений для пассажиров «Аэрофлота».

«Самые очевидные примеры проектов, которые уже реализованы в российских компаниях, это проекты, связанные с клиентской аналитикой, когда нужно работать с большой, многомиллионной клиентской базой, делая в реальном времени предложения, используя при этом для анализа как можно большее количество различных источников данных, — сообщает Антон Заяц. — Это банки и телекомы, и они успешно все это делают».

По словам начальника отдела информационных технологий компании «Челны-Лифт» Алексея Степанова, действующая на их предприятии лифтовая информационная система (ЛИС) собирает со станций управления лифтами большой объем показателей, анализ которых позволяет проактивно выявлять зреющие проблемы и проводить профилактические ремонты. В будущем компания планирует продавать своё решение сторонним лифтовым организациям, для чего ей, возможно, потребуются облачные сервисы и технологии Big Data.

Как работать с внешними источниками

Один из наиболее перспективных источников информации для Big Data — внешние по отношению к корпоративной системе ресурсы (онлайновые архивы, Web, социальные сети и т. д.). Готовы ли предприятия к работе с такими источниками? Какие проблемы технологического, юридического и иного характера необходимо будет решать для этого?

«Я бы сказал, что готовы. Мало того, мы недавно завершили проект для одного из наших заказчиков в банковской сфере, в рамках которого используются такие источники информации, — говорит Роман Баранов. — У большинства отечественных предприятий могут возникнуть некоторые технологические даже не проблемы, а скорее шероховатости, связанные с особенностями использования решений Open Source. Что касается юридических проблем, то достаточно внимательно изучить законы, чтобы понять, что по сравнению с рынком облачных услуг особых сложностей тут нет».

Ольга Рубцова уверена, что сейчас во внешних источниках информации по клиентам и продуктам зачастую больше, чем внутри корпоративных систем. Однако здесь имеет смысл говорить не только о легальности использования этих данных, но и о сохранении доверия клиентов. Иная точка зрения у Андрея Орлова: «Внутри самой компании находится настолько огромный объём данных, что обогащение собственных источников внешними — это, на мой взгляд, уже следующий этап: не так много компаний готовы к нему».

По оценкам Андрея Горяйнова, отечественные компании проявляют большой интерес к сбору и анализу этих данных. Основная сложность — это закрытость источников данных (например, социальных сетей). Обычно либо требуются специальные договоренности с провайдерами подобных услуг, либо решить эту задачу невозможно из-за юридических ограничений или требований информационной безопасности. Для обхода таких преград полезно переходить к работе с обезличенной информацией. Александр Дмитриев добавляет, что сложности могут возникнуть при необходимости обрабатывать персональные данные. Еще одна существенная проблема, о которой упомянул Hadoop-евангелист подразделения Think Big представительства компании Teradata в России Александр Смирнов — проблема матчинга пользователей. Зачастую не просто сопоставить анкету в социальной сети с записью в CRM-системе.

«Наш вуз выиграл грант Microsoft, благодаря чему мы значительно повысили свои компетенции по Cortana Intelligence Suite и Azure ML, — сообщил руководитель департамента анализа данных, принятия решений и финансовых технологий Финансового университета при Правительстве РФ Владимир Соловьев. — К сожалению, то, что подходит университетам, не всегда отвечает требованиям бизнес-заказчиков: так, ни у Azure ML, ни у других облачных сервисов машинного обучения нет российских серверов, и это пока является основным препятствием к массовому переводу аналитических решений в облака».

«Многие наши заказчики анализируют внешние данные, чтобы лучше понимать своих клиентов, предлагать им как можно более интересные продукты или точнее оценивать их кредитоспособность, — отмечает Антон Заяц. — Появляются новые партнерства, когда провайдером данных выступает крупная компания. Такие проекты уже есть у телеком-операторов. Недавно Сбербанк заявил, что будет продавать обезличенные данные. Что касается проблем, то, в первую очередь, трудно понять, какие данные нужно анализировать, а какие являются просто шумом. Это экспериментальная работа, которая потребует определенных затрат. Но сами по себе данные достаточно дешевы. И многие компании, занимающися сбором и монетизацией информации, предлагают не сырые данные, а предварительно сегментированные выборки, что удешевляет дальнейшую обработку».

Нужно ли техническое перевооружение

Если предприятие все же захочет приступить к использованию Big Data, с чего оно должно начать, на что обратить внимание и к чему (неожиданному) быть готово? Потребуется ли ему существенное программно-техническое перевооружение?

Необходимость в техническом перевооружении в определенной степени зависит от уже имеющейся на предприятии инфраструктуры, но большинство наших экспертов сошлось в том, что, поскольку коньком технологии является кластеризация имеющихся ресурсов (вычислительных мощностей и дискового пространства), значительного обновления аппаратных средств, как правило, не требуется. Намного проще будет компаниям, которые уже используют в своей инфраструктуре технологии частного облака или платформы виртуализации: для них (с учетом преимущественно открытого характера инструментов Big Data) это техническое довооружение может пройти совсем безболезненно.

«Старые технологии плохо масштабируются на большие объемы данных, и аналитические задачи нужно будет выносить в отдельный контур как с точки зрения ПО, так и с точки зрения „железа“, — возражает Антон Заяц. — Также нужно внимательно смотреть на зрелость технологии и не попасть в ситуацию, когда вы для узкоспециализированных задач приобретаете узкоспециализированные инструменты, которые потом трудно интегрировать с остальными системами».

Несколько сложнее ситуация с ПО. По мнению Романа Баранова, возможно, потребуется некоторое обновление имеющегося набора приложений, а вот продуктов категории Big Data на российском рынке явно недостаточно. И указ об импортозамещении еще больше усугубляет эту ситуацию. В частности, Александр Смирнов обращает внимание на отсутствие открытых CDC- (Change Data Capture) и BI-инструментов. В свою очередь Андрей Горяйнов полагает, что сегодня количество разнообразных продуктов на рынке Big Data достаточно велико и скорее приходится решать задачу нахождения оптимального пути с наименьшими операционными и финансовыми затратами заказчиков.

«Я бы рекомендовал начать с обучения персонала, — советует Роман Баранов. — Заниматься внедрением Big Data должны даже не столько специалисты, а люди, которые не будут „бежать по граблям“. Если некого обучать, значит нужно покупать специалистов, которые уже имеют достаточный опыт. Главное, на мой взгляд, чтобы это не был публичный узнаваемый эксперт, который ведет активную маркетинговую и PR-деятельность. Полезно в рамках тендера обратить особое внимание на то, готовы ли системные интеграторы обучать сотрудников и делиться своей экспертизой».

Андрей Пивоваров рекомендует компаниям, прежде чем генерировать собственные идеи, ознакомиться с мировом опытом решения похожих задач. Однако нужно постоянно держать руку на пульсе: область Big Data очень быстро развивается, и буквально в течение нескольких месяцев могут появляться новые прорывные технологии. Антон Заяц полагает, что проект по большим данным, как и любой другой ИТ-проект, может использовать как классические методы проектного управления, так и современные, например Agile, который часто даже более предпочтителен, поскольку в проектах Big Data, как правило, много этапов тестирования и доработки идей.

«Развернуть Hadoop, наполнить его данными и начать что-то анализировать можно довольно быстро, — предупреждает Андрей Орлов. — Но со временем без правильной стратегии управления информацией данная инициатива может потерпеть фиаско: данных станет ещё больше, никто не будет считать эту информацию достоверной, никто не будет понимать, откуда она вообще появилась в Hadoop».

Велики ли затраты

Бытует мнение что большие данные — это и большие расходы. Но каков порядок финансовых затрат, необходимых для реализации технологии Big Data? Какова, в общих чертах, структура этих затрат?

Как справедливо отметила Ольга Рубцова, структура проектов Big Data стандартная: аппаратная часть, ПО, консалтинг, сопровождение. «Разве что в обязательном порядке нужно предусмотреть расходы на выпуск пресс-релиза о том, что вы применяете BigData, — иногда это единственное отличие», — шутит Роман Баранов. Он отмечает, что основные затраты приходятся на консалтинг и в меньшей степени на поддержку ПО, а вот статья расходов на приобретение серверов мала и может не превысить и 5%. «Казалось бы, структура затрат в крупных организациях варьируется несильно, а меняется лишь распределение между статьями, так как условия внедрения технологий не позволят качественно поменять структуру проекта, — полагает Андрей Орлов. — Однако ситуация потихоньку меняется, если принять в расчет облачные среды, которые активно развивают практически все вендоры». Антон Заяц напоминает, что достаточно дорого обходятся специалисты по анализу больших данных, которым предстоит эксплуатировать внедренную систему. Владимир Соловьев формулирует этот тезис еще жестче: «Основные затраты — на человеческий капитал».

«Большинство наиболее распространенных инструментов — Hadoop, Spark, различные нереляционные СУБД — это ПО с открытым исходным кодом, а следовательно, затраты на лицензии равны нулю, — напоминает Александр Смирнов. — Кроме того, это ПО отлично работает на commodity-серверах. Можно уверенно утверждать, что Big Data — это не еще один легкий способ расстаться с деньгами, но отличная возможность сэкономить за счет использования открытого ПО на доступном „железе“ или даже в облаке».

Есть ли специалисты

Каковы квалификационные требования к специалистам, которые внедряют технологии Big Data, и к тем, кто будет их использовать в бизнесе? Есть ли такие специалисты в отечественных компаниях? Если их нет, то кто и где их должен готовить?

Роман Баранов больших проблем здесь не видит: «Никаких особенных и новых требований к ИТ-специалистам нет. Изменились лишь названия должностей и используемые термины (DataFlow developer = ETL developer, Data Scientist = специалист по статистике и анализу данных, Agile Team Lead = менеджер проекта)». С ним солидаризируется Владимир Соловьев: «В департаменте анализа данных нашего университета работают 150 профессоров и доцентов, многие из которых по 30 лет применяют методы, массово распространившиеся только сейчас — они просто не знали, что занимались машинным обучением».

«Проекты по использованию больших данных могут покрыться пылью, пока компании будут искать специалистов с нужными навыками, или застопориться, если сложность систем поставит программистов и бизнес-аналитиков в тупик, — возражает Андрей Пивоваров. — Вместо того чтобы охотиться за „волшебным единорогом — исследователем данных“, компаниям следует формировать из собственных сотрудников ударные отряды „гражданских“ исследователей данных (citizen data scientist) — энтузиастов своего дела и бизнес-аналитиков».

Как пояснил Андрей Горяйнов, SAP предлагает курсы по использованию своих решений для работы с большими данными, проводит ознакомительные мероприятия с глубоким освещением этой темы и сотрудничает с российскими вузами в рамках совместных образовательных программ, в набравшем популярность онлайн-обучении. Андрей Орлов напоминает, что есть ряд сайтов, например общественный проект компании IBM BigDataUniversity.com, которые предлагают курсы, направленные на подготовку профильных специалистов. А Александр Дмитриев убежден, что на роль data scientist должны выдвигаться бизнес-аналитики компании с активной жизненной позицией или специалисты, уже имеющие успешный опыт внедрения аналитических систем Data Mining. Александр Смирнов отмечает интересную тенденцию: молодые специалисты, которые никогда всерьез не сталкивались с классическими технологиями работы с данными зачастую бывают более результативны, нежели умудренные многолетним опытом, но скептически настроенные гуру реляционных СУБД.

«По нашему опыту, наиболее ценный ресурс — молодежь, выпускники ведущих вузов, имеющие математическое образование или по смежным специальностям, — сообщает Антон Заяц. — Мы ведем большую работу в этой области: развиваем стажерскую и академическую программу, наши специалисты читают курсы на ВМК МГУ, в Высшей школе экономики и в других вузах».

Как оценить экономический эффект

Всех интересует, можно ли хотя бы приблизительно оценить в измеряемых показателях вероятную выгоду от применения Big Data в тех или иных приложениях? Существуют ли заслуживающие доверия бенчмарки, полученные на опыте реальных проектов?

«Если речь идет о инфраструктурных проектах по переносу данных из традиционных хранилищ в Hadoop, то экономия оценивается с помощью простых арифметических действий, — констатирует Александр Смирнов. — Совсем другое дело с исследовательскими проектами, здесь зачастую трудно предсказать не то что выгоду, а даже и тот результат, который мы получим». Роман Баранов полагает, что возможные выгоды от Big Data должен оценивать заказчик, а системный интегратор, имея подобную информацию, может подобрать наиболее экономичные варианты решения задачи. Владимир Соловьев обращает внимание на то, что пилотные проекты могут показать очень хорошую эффективность, но если дальше инвестировать в более мощный алгоритм, выигрыш бывает уже не столь заметен. А Андрей Орлов отметил, что для компании сегодня важна не только абсолютная величина экономического эффекта, но и скорость его достижения.

«По нашему опыту, особенно в части клиентской аналитики, сравнение показателей продаж и отклика до и после внедрения или показателей кредитного мошенничества позволяет оценить эффект, в том числе в деньгах, — сообщает Антон Заяц. — Успешность проектов мы оцениваем по таким показателям, как снижение стоимости владения и обработки данных, повышение отклика на предложения, дополнительная выручка, снижение уровня оттока клиентов и т. д.».

По словам Андрея Пивоварова, применение решения Big Data в белорусской компании Wargaming, предоставляющей доступ к своим многопользовательским онлайн-играм World of Tanks и World of Warplanes, позволили ей выявить недостатки руководства пользователя, приводившие к отклонению от желаемого его поведения в ходе игры. Это позволило более целенаправленно стимулировать переход игроков в категорию платных пользователей. Кроме того, компания реализовала ряд маркетинговых акций, персонализировав обращения к игроку в зависимости от его стиля игры, вовлеченности и прочих особенностей поведения. В одном из регионов такой подход привел к увеличению процента удержания в игре и росту выручки на 62%.

Андрей Горяйнов, ссылаясь на зарубежный опыт, привел ряд примеров оценки экономического эффекта: в крупном онлайновом магазине HSE24, интернет-аукционе eBay, командах Формулы-1 McLaren и Mercedes. Сами эти примеры недвусмысленно показывают, что у каждой компании своя, в чем-то уникальная бизнес-модель и для оценки ожидаемого эффекта следует отталкиваться от наиболее близких по смыслу известных бизнес-кейсов.

И наконец, трудно не согласиться с Ольгой Рубцовой: «Все зависит от самой компании. Big Data — это как врач: он может увидеть текущую ситуацию и дать тебе рекомендации по лечению, но насколько лечение будет эффективным во многом зависит от тебя самого».

Печать Печать без изображений

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.