Обсуждение технологий больших данных становится чуть ли не дежурной темой на мероприятиях самых разных уровней. Вот уже и Владимир Путин упомянул Big Data на заседании наблюдательного совета Агентства стратегических инициатив в одном ряду с технологиями искусственного интеллекта, новых источников энергии, беспилотных летательных аппаратов, систем управления морским транспортом без экипажа и автотранспортом без водителя. Свою лепту внесли и участники круглого стола, организованного Moscow Tech Meetup и прошедшего в Москве в конце мая. На нем обсуждались как общие проблемы и возможности применения Big Data, так и перспективы российских стартапов, желающих воспользоваться преимуществами данной технологии. Следует отметить, что хотя о стартапах здесь и говорили, но к большим данным это не имело отношения.
И понятно почему. Как известно, первопроходцами в разработке и применении технологий Big Data были такие компании, как Google и Facebook, которые к этому времени стартапами давно уже не были. Они накопили огромные объемы разнородной информации и попытались использовать ее для реализации бизнес-инноваций. У нас в стране, несомненно, есть разработчики ПО, которые не прочь поучаствовать в развитии столь перспективного рынка, но ведущую роль здесь играют крупные организации, которые не горят желанием делиться своими данными и готовы рассматривать предложения небольших стартапов, если только те будут решать задачи, актуальные для владельца данных. О готовности рассмотреть любые инициативные предложения сообщил разработчик из SAP Василий Суханов. По его словам, в российском офисе компании запущена программа «Стартап акселератор», в которой уже зарегистрировано около десятка участников. Имеют ли они отношение к Big Data? Трудно сказать. Василий Суханов предложил таким ISV-претендентам воспользоваться облачной реализацией платформы SAP HANA на этапе разработки и тестирования их решений, но не очень понятно, как эти работы будут связаны с большими данными.
Как ни странно, единого определения термина Big Data, с которым были бы согласны все участники круглого стола, дано не было. Если, к примеру, директор по развитию бизнеса в регионе EMEA компании Talksum Эдуард Ашрафьян упомянул классический фактор 3V (Volume, Velocity, Variety), то куратор ИТ-проектов транспортного комплекса Москвы Дмитрий Уфаев заявил, что они относят свои решения к Big Data просто потому, что им нравится этот термин. А Вячеслав Потепко продукт-директор MaximaTelecom, предоставляющей услуги Wi-Fi в московском метро под брендом Vmet.ro, утверждал, что их решение по целевому таргетированию рекламы можно будет отнести к категории Big Data после того, как будет достигнута поставленная цель — довести число полей в профиле клиента до 1,5 тыс. Весьма разумным представляется подход к определению Big Data, который поддержали Василий Суханов и ведущий Data Scientist из «Вымпелкома» Александр Крот. Они ставят во главу угла не характеристики данных (те же 3V), а набор специализированных методов и инструментов для их обработки. Ведь нередко проекты с использованием инструментов Big Data (Hadoop, MapReduce, NoSQL, R) начинаются с пилотов на весьма скромных наборах данных, которые в случае успеха можно масштабировать в широких пределах.
Довольно любопытный критерий отнесения ИС к категории Big Data предложил CIO Mail.ru Group Александр Горный: если наш опыт взаимодействия через систему с одним клиентом зависит от взаимодействий с другими, то мы имеем дело с технологиями больших данных. Его рассказ о технологических решениях, используемых в Mail.ru, в какой-то мере противоречит указанному выше определению, поскольку для разных подразделений и разных задач используются собственные отдельные Hadoop-хранилища, а одного общего для всей компании хранилища больших данных у них нет. Как при этом можно гарантировать учет взаимного влияния взаимодействий с разными клиентами? Александр Горный признает, что методологически такой подход не совсем верен, но для решаемых сегодня в Mail.ru задач он вполне годится.
По словам Дмитрия Уфаева, в транспортном комплексе Москвы сегодня решается задача оптимизации использования дорожной сети. Для этого приходится анализировать огромные объемы информации, собираемой, в частности, с камер видеофиксации. К ним добавляются данные геопозиционирования, поступающие с 8 тыс. машин, принадлежащих Мосгортрансу, и информация о перемещениях людей в метро, предоставляемая провайдером услуг Wi-Fi (MaximaTelecom). Сама MaximaTelecom для таргетирования онлайновой рекламы (а это ее единственный источник дохода) анализирует как данные профиля пользователя, вводимые им самим при регистрации, так и дополнительную информацию о марке мобильного устройства, провайдере сотовой связи, используемых приложениях, генерируемом сетевом трафике и т. д. И хотя до достижения упомянутой выше цели (1,5 тыс. полей в профиле) еще далеко, компания надеется выйти к концу нынешнего года на самоокупаемость.
Еще одна интересная и важная тема, затронутая на круглом столе, связана с доступом к корпоративным большим данным других субъектов рынка, а может быть, и с продажей таких данных. Ведь, к примеру, данные о загруженности московской дорожной сети могут представлять интерес для самых разных организаций, и их, в принципе, можно использовать в приложениях независимых разработчиков. В целом организации, представленные на круглом столе, отнеслись к подобной бизнес-модели без особого энтузиазма. Так, Дмитрий Уфаев, посетовав на сложность организации продаж потоковых данных видеонаблюдения, признал, что они как государственная организация в такой продаже данных не очень-то и заинтересованы. А Александр Горный недвусмысленно заявил, что Mail.ru не считает эту идею полезной, поскольку она, скорее всего, не отвечает желаниям пользователей, доверивших Mail.ru свою личную информацию. Но может быть, кому-то из участников обсуждения интересно покупать большие данные из внешних источников и добавлять их к своим? По словам Вячеслава Потепко, у MaximaTelecom такой потребности нет: им хватает и собственных данных.