В последнее время немного снизился шум, связанный с технологиями Big Data. Нет, проблема никуда не исчезла, мир по-прежнему производит огромные и непрерывно увеличивающиеся объемы информации, но сами эти слова стали упоминаться реже. Дело дошло до того, что понятие Big Data исчезло из последнего исследования Gartner «Hype Cycle for Emerging Technologies 2015», породив волну комментариев о неактуальности этой темы. На самом деле Big Data всегда было термином зонтичным, объединяющим разные целевые задачи и методы их решения. Термин этот подчеркивал переход количества в качество, когда размер данных становится самостоятельной проблемой. И его отсутствие в исследовании Gartner говорит только о том, что одни направления, такие как Machine Learning и Data Science, вышли из тени «зонтика» Big Data и привлекли особое внимание, другие — вошли в повседневность и перестали быть развивающимися.
Немного об определениях
«Зонтичность» термина Big Data порождает путаницу в определениях, ведь каждый узкий специалист смотрит на проблему под своим углом и формулирует что-то свое. Каких только определений не дают этому термину на наших конференциях. Слышал даже совсем экзотичные: Big Data — это данные, которые превышают объем 4 Tб. На тот момент это был максимальный размер внешнего съемного диска; видимо, невозможность скопировать больший объем данных на один диск воспринималась докладчиком как серьёзная проблема, иначе трудно было понять названную цифру.
Чаще утверждают, что Big Data — это анализ только неструктурированных данных. При этом переводят NoSQL как «не-SQL». На самом деле NoSQL — это «not only SQL», то есть не только SQL. Так что никаких ограничений на использование структурированных данных в Big Data нет.
Еще одно определение, встречающееся на конференциях по большим данным: Big Data — это внешние для предприятия источники информации. Прежде всего Интернет и соцсети. Интересно, как тогда докладчики представляют себе Индустриальный Интернет вещей и как собираются анализировать огромные объемы внутренних данных, генерируемых на промышленных предприятиях.
Разброс в определениях Big Data во многом напоминает недавнюю ситуацию с облачными вычислениями, где под облаками некоторые специалисты понимали просто удаленный доступ через Интернет. Но там было проще, можно было опереться на определение Национального института стандартов и технологий США (NIST).
С большими данными всё гораздо более запущено. Первый международный стандарт, относящийся к Big Data, появился только в ноябре прошлого года. Международный союз электросвязи, являющийся специализированным учреждением Организации объединенных наций, анонсировал свой первый стандарт для больших данных ITU-T Y.3600, в котором описаны требования, возможности и порядок использования больших данных в облаке.
Над этой проблемой работает и NIST. В апреле прошлого года появился NIST Big Data interoperability framework — комплект документов, которые направлены на создание стандартов, связанных с Big Data. Это большой труд, включающий семь томов: «Определения», «Таксономия», «Требования», «Безопасность и конфиденциальность», «Обзор архитектур», «Эталонная архитектура», «Стандарты дорожной карты».
NIST предлагает дать определение Big Data через характеристики данных — большие объемы, разнородность, высокая скорость появления или изменения, требующие масштабируемой архитектуры для эффективного хранения, обработки и анализа данных. Big Data появляются там, где объем данных, скорость их сбора или представления ограничивают возможности для эффективного анализа с использованием традиционных реляционных подходов либо требуют значительного горизонтального масштабирования для эффективной обработки.
Большие данные в телекоме
Пока теоретики спорят об определениях, практики Big Data уже вовсю работают. В лидерах здесь — компании телекома, что и не удивительно, учитывая объемы данных, которыми они обладают. Телеком-операторы не хотят быть только «трубой» для передачи информации. «Овца, носившая золотое руно, не была богата. Обладая огромным количеством разных данных, было бы глупо не пытаться их как-то монетизировать», — сказала на конференции «Большие данные 2016» Екатерина Линкевич, руководитель службы управления проектами Big Data компании «Билайн».
Причем это данные не только по мобильной связи (обезличенная информация о факте и месте звонка), но и по широкополосному доступу в Интернет. Оператор может собирать информацию о том, какие передачи смотрели клиенты, используя интернет-телевидение, какие сайты посещали, какие делали поисковые запросы. На всем этом можно строить аналитику и предлагать ее рынку через биржи данных (RTB — real time bidding). Например, на такой информации построены рекомендательные сервисы в онлайн-ритейле и таргетированная реклама, основанная на предпочтениях пользователей сети.
Здесь есть определенные проблемы. Не всегда услугой пользуется тот человек, на которого оформлен телефон. Домашний Интернет доступен для всей семьи. Нужно понимать, сколько в семье человек и кто они. А еще люди переезжают. Контракт оформлен на один адрес, а в действительности пользователь проживает по другому. Всё это значительно усложняет анализ. Приходится искать косвенные признаки и применять специальные алгоритмы. Например, разработаны алгоритмы определения фактического места проживания и места работы абонентов по анализу нагрузки на базовые станции. Существуют алгоритмы определения пола и возраста клиента на основе его поведения в сети.
Операторы строят различные профили для абонентов, включающие уровень их доходов и состав семьи, количество человек в домохозяйстве, есть ли у абонента автомобиль. Все это позволяет более точно спрогнозировать потребности абонента, повысить эффективность рекламных кампаний и точность его оценки скоринговыми системами, например, при принятии решения о размере лимита не перерасходование средств.
Пример: человек собирается лететь за границу. Если в зале ожидания аэропорта предложить ему подключиться к роумингу или перейти на специальный тариф, то это будет намного эффективней предложения, полученного уже в другой стране. Но нужно предвидеть, что он туда полетит. Нет смысла посылать предложение абоненту, приехавшему в аэропорт на работу. Или встречать кого-то.
Реальные данные о населении сильно отличаются от данных Росстата. Один из кейсов «Билайна» — геоаналитика для правительства Москвы, на основании которой можно определить плотность населения, матрицу корреспонденции между районами и между станциями метро, динамику перемещения людей. Анализ нагрузок на базовые станции дает возможность давать в агрегированном виде отчеты, благодаря которым администрация города может принимать решения. Например, о новых маршрутах автобусов и троллейбусов, о нужном количестве школ, детских садов, больниц.
Есть и успешные кейсы использования геоаналитики для бизнеса. Такие, как выбор эффективного расположения пункта продажи, исследование логистики, анализ целевой аудитории. Скажем, оператор понимает, где проезжает целевая аудитория конкретной фирмы, и дает рекомендации по размещению вдоль этого пути билбордов.
Big Data и Интернет вещей
Если шум вокруг Big Data немного утих, то волна интереса к технологиям Интернета вещей (IoT) только нарастает. В нынешнем году это мейнстрим. Интернет вещей производит огромное количество данных, которые надо обрабатывать в режиме реального времени, поэтому без использования технологий Big Data никак не обойтись.
Домашний Интернет вещей, «умный» дом — это хорошо, но пока недешево. Поэтому в России сейчас в основном уделяется внимание Индустриальному Интернету вещей, то есть Интернету вещей на производстве. Использование технологий Big Data и Machine Learning дает компаниям возможность прогнозировать процессы и своевременно принимать меры. Например, выносить решения о внеплановом ремонте оборудования. Сейчас технологии Big Data в IoT стали обыденностью. Они используются во всех наиболее популярных в мире платформах Интернета вещей, включая PTC ThingWorks, SAP HANA Cloud Platform for IoT и Microsoft Azure IoT Suite.
Совокупные доходы от проектов в области IoT в России за прошлый год составили 3,5 млрд. долл. По прогнозам IDC, к
Большие данные и банки
Банки используют технологии анализа больших данных при обеспечении информационной безопасности (недопущение проведения сомнительных операций и мошенничества), в работе с персоналом, для маркетинга — персонализации предлагаемых клиентам банковских продуктов. И, конечно, скоринга.
Скоринг — оценка кредитных рисков физического или юридического лица, основанная на статистических методах, ‒ одна из важнейших банковских систем. Кому можно дать кредит, а кому нельзя? Как оценить риски и какой заложить процент? Эти вопросы очень интересуют банкиров.
Помочь могут операторы телекома. Например, крупнейший китайский оператор China Telecom анализирует своих клиентов, классифицирует их по степени надежности и эту информацию продает банкам. По такому пути могут пойти и наши операторы. Но пока банки проводят анализ сами.
Большими данными уже занимается Сбербанк. Наша крупнейшая ИТ-компания с банковской лицензией имеет огромную клиентскую базу и огромные объемы информации о своих клиентах, так что вполне логично, что Сбербанк создал лабораторию Big Data и использует полученные ею результаты в своей работе. В том числе в кредитном скоринге, в борьбе с мошенничеством, в управлении персоналом.
Например, Сбербанк отслеживает клиентские потоки, анализирует их средствами Big Data, что позволяет прогнозировать пиковые дни, когда нужно добавить или убавить людей в отделениях, обслуживающих клиентов. Для HR-департамента интересен проект по оценке вероятности ухода вновь нанятого сотрудника.
Подтягиваются и другие российские банки: анализом Big Data занимаются «Тинькофф», «Альфа-банк», «Открытие». «Big Data — это прежде всего внешние данные», — считает руководитель управления хранилищами данных и отчетностью банка «Тинькофф» Сергей Сотниченко. И на рынке есть компании, которые могут поделиться не только обобщенными аналитическими данными, но и первичными. Например, Data-Centric Alliance.
При этом компания не торгует персональными данными, она просто дает банку информацию о том, какие сайты посещал пользователь с определёнными cookies и рекламными идентификаторами (advertising ID) и какие он делал поисковые запросы. Ведь пользователь, заходя на страничку интересующего его сайта в Интернете, многим оставляет информацию об этом. Не только владельцу сайта и браузеру, но и владельцам установленных на страничке счетчиков и рекламных блоков.
Сама идентификация пользователя происходит на стороне банка. У банка есть сайт, личные кабинеты пользователей, системы интернет-банкинга, то есть он обладает достаточной информацией, чтобы идентифицировать клиента. Причем как текущего, так и работавшего с данным банком прежде.
Клиенты периодически чистят свои cookies, сбрасывают рекламные идентификаторы, заходят на сайты банка с разных браузеров и устройств, так что в профиле клиента будет несколько cookies. По ним внешняя компания определяет, что делал клиент в сети, и передает банку информацию. Банк оценивает психотип клиента, что очень важно в маркетинге для создания индивидуального предложения, определяет его надежность клиента и привлекательность для себя. Например, если клиент делал поисковые запросы типа «как обмануть банк и не отдать кредит», «как сделать фальшивый паспорт», то стоит задуматься, имеет ли смысл давать ему деньги.
Другой возможный путь использования такой информации — оценка проводимых банком рекламных кампаний, работы его отделений, проблем, с которыми сталкиваются конкретные клиенты. При этом использование лингвистических технологий дает возможность проанализировать даже эмоциональную окраску информации, получаемой по обратной связи, и оценить степень удовлетворения клиентов новыми или уже используемыми услугами.
Как организовать работу с Big Data
Анализировать Big Data хотят многие. При этом телеком-операторы стремятся к тому, чтобы не быть просто передаточным звеном, а зарабатывать на аналитике. Банки — чтобы самостоятельно проводить анализ, не давая посторонним данные о своих клиентах. В ФЗ №
Для этого нужно создавать команды по работе с Big Data. Что тоже не просто. На конференции «Большие данные 2016» Юрий Петров, представляющий Big Big Data Group, поделился своим богатым опытом работы в качестве Data Architect в крупнейших телеком-компаниях и банках страны. В целом советы были похожи на предложения Эдварда Йордона в книге «Путь камикадзе. Как разработчику программного обеспечения выжить в безнадежном проекте», что подчеркивает сложность этой задачи.
«Первое, с чего следует начать, это понимание того, что проект Big Data не вписывается в рамки, в которых у вас находится бóльшая часть ИТ-проектов», — сказал Юрий Петров. И перечислил вопросы, которые нужно решать при внедрении проектов.
К организационным вопросам относятся следующие.
— Как представить топ-менеджерам проект Big Data таким образом, чтобы все было понятно?
— Как обосновать повышенные риски, большой бюджет, длинный цикл разработки, сложность монетизации?
— Как мотивировать менеджмент к принятию непопулярных решений?
— Как заручиться поддержкой топ-менеджмента, партнеров и ключевых фигур в компании?
— Как донести план управленческих и кадровых реформ?
— Как обосновать отказ от дорогих закупок (софт и инфраструктура)?
При этом он призвал стараться использовать только открытое ПО: «Что бы вам ни говорили вендоры, большинство задач можно эффективно решать с помощью открытого ПО. Эта позиция должна быть принята ИТ-командой. Принятие такой позиции позволит значительно сократить количество ненужных встреч и переговоров».
Вопросы инфраструктуры и безопасности
Прежде чем начинать проект Big Data, нужно проработать общую архитектуру, которая будет учитывать и бизнес-пользователей. Эта общая архитектура даст понимание сложности, стоимости, рисков и поможет оценить наши возможности в целом. При этом, как отметил Юрий Петров, надо ответить на следующие инфраструктурные вопросы.
— Проработана ли аппаратная и программная архитектура?
— Какие есть источники данных?
— Какие данные нужно обрабатывать в реальном времени, а какие нет?
— Проработана ли архитектура Data Lake — контейнеры, данные из каких источников будут храниться, каковы задержки обновления, какова глубина хранения, какие есть типы данных, как организован доступ к данным из внешних приложений, какова их надежность?
— Какая архитектура и какие технологии будут использоваться для real-time-разработки?
— Какая быстрая витрина будет использоваться для real-time-данных?
— Какие технологии будут использоваться для записи real-time-данных в Data Lake?
— Какова будет архитектура MDM (master data management) и как MDM будет интегрирован с Big Data?
— Какие технологии и подходы мы выберем для ETL (извлечение, преобразование, загрузка)?
— Как будет реализована система мониторинга Data Flow?
— Как будет реализована система алертов и мониторинга кластеров?
— Какие NoSQL-БД будут использоваться для стандартной витрины ?
Особое внимание надо уделить вопросам безопасности. С одной стороны, полученные данные могут быть не предназначены для широкого распространения и защищены законодательством. С другой, они могут интересовать спецслужбы.
Поэтому нужно определить, соответствует ли предложенное решение положениям законодательства, в частности требованиям о тайне связи (ч. 2, ст. 23 Конституции РФ; ст. 63 ФЗ «О связи»), ответственность за нарушение которых определена в статье 138 УК РФ; о тайне частной жизни (ст. 24 Конституции РФ) — ответственность по ст. 137 УК РФ; о защите персональных данных (ФЗ-152 «О персональных данных»). И решить, как будут шифроваться данные, где будет расположен сервер шифрования (обычно для шифрования данных используется отдельный сервер, которым владеет служба безопасности предприятия). А также ответить на следующие вопросы.
— Какие данные подлежат шифрованию?
— Как обеспечить доступ к данным, подлежащим шифрованию, для спецслужб страны, служб безопасности предприятия, а также сотрудников компании с допуском?
— Как предоставлять доступ к данным, которые не подлежат шифрованию, внутренним и внешним заказчикам?
Как все изменилось
Год назад наш рынок анализа Big Data можно было описать с помощью определения американского профессора Дэна Ариэли: «Big Data — как секс у подростков: все говорят об этом, но никто реально не знает, что это такое и что с этим делать, каждый думает, что другие уже успешно это делают, и каждый заявляет, что тоже успешно это делает». Прошел всего год, но многое изменилось. Говорят значительно меньше. А делают больше. Рынок уже созрел, распробовал новый опыт, оценил новые возможности, получил первые плоды. Подростковый период технологий Big Data закончился, началась плодотворная молодость.