Большие данные стали горячей темой 2012-го. Что скрывается за шумихой?
В гиперконкурентном мире, вынуждающем соперничающие компании постоянно снижать маржинальность, бизнес рассматривает большие данные как возможность получить абсолютное оружие в борьбе за выживание. Как предсказывает консалтинговая корпорация Deloitte, к концу 2012 г. свыше 90% компаний из списка Fortune 500 будут активно готовить по крайней мере несколько инициатив в области больших данных. Что же такое большие данные и почему о них надо волноваться?
1. Что такое большие данные?
Так же, как и с облачными технологиями, то, что один человек подразумевает при обсуждении больших данных, совсем не обязательно совпадает с тем, что под этим понимает его собеседник.
Самое простое определение
Из названия можно предположить, что термин “большие данные” относится просто к управлению и анализу больших объемов данных. Согласно отчету McKinsey Institute “Большие данные: новый рубеж для инноваций, конкуренции и производительности” ( Big data: The next frontier for innovation, competition and productivity), термин “большие данные” относится к наборам данных, размер которых превосходит возможности типичных баз данных (БД) по занесению, хранению, управлению и анализу информации. И мировые репозитарии данных, безусловно, продолжают расти. В представленном в середине 2011 г. отчете аналитической компании IDC “Исследование цифровой вселенной” ( Digital Universe Study), подготовку которого спонсировала компания EMC, предсказывалось, что общий мировой объем созданных и реплицированных данных в 2011-м может составить около 1,8 зеттабайта (1,8 трлн. гигабайт) — примерно в 9 раз больше того, что было создано в 2006-м.
Более сложное определение
Тем не менее “большие данные” предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, — это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Добавьте сюда то обстоятельство, что данные сейчас обновляются все чаще и чаще, и вы получите ситуацию, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных.
Наилучшее определение
В сущности понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую формулировку: “Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности”.
2. Реальная тенденция или просто обман?
Сомневающиеся
Не все в ИТ-индустрии убеждены, что большие данные имеют такое же “большое” значение, как миф, созданный вокруг них. Некоторые эксперты говорят, что доступ к куче фактов и возможность их проанализировать вовсе не означают, что вы сделаете это правильно.
В отчете, названном “Большие данные: использование актива, меняющего игру” (Big data: Harnessing a game-changing asset), подготовленном Economist Intelligence Unit и спонсированном компанией SAS, цитируется выступление Питера Фадера, профессора маркетинга Вартоновской школы университета Пенсильвании, который указал, что тренд работы с большими данными не является благом для бизнеса в настоящее время, поскольку по причине большого объема и высокой скорости изменения данных приходится сокращать время их анализа.
“В некоторых смыслах мы следуем в неверном направлении, — сказал он. — Когда-то в старые времена компании могли бы собрать вместе эти большие синдицированные отчеты. Они посмотрели бы на долю рынка, объем финансов и все эти прочие штуки. Но то было время поиска информации среди гор данных. Тогда можно было потратить время, чтобы обдумать цифры, изучить данные тестов и в итоге принять продуманные решения. Однако идея прогнозирования и диагностики сегодня забыта, поскольку скорость поступления данных слишком высока. В некотором смысле мы обрабатываем данные менее продуманно”.
Кто-то может возразить, что это сомнительное конкурентное преимущество — проводить часы, обдумывая данные, которые есть у каждого, и что идея больших данных состоит в использовании новой информации и формулировании выводов, которые еще никто не сделал. Даже в этой ситуации важно быстро понять смысл и контекст для данных, и в некоторых случаях это может быть непросто.
Генри Седден, вице-президент по глобальному отраслевому маркетингу компании Qlikview, специализирующейся на продуктах для бизнес-аналитики (BI), называет информационные массивы, которые компании надеются проанализировать с помощью теории “больших данных”, выхлопными данными. Он сообщил, что судя по его опыту, компании не умеют извлекать информацию даже из собственных систем планирования работы с корпоративными ресурсами и соответственно не способны к какому-либо более или менее серьезному анализу информации.
“Я думаю, это очень популярная тема для поставщиков решений, — говорит он, — но большинство компаний пытается справиться с обработкой обычных сведений по своему бизнесу, вместо того чтобы задумываться над тем, что я называю выхлопными данными”.
С этим согласен Грег Шварц, директор Deloitte: “Безусловно, если бы мы смогли решить проблему обработки больших данных, мы все купались бы в выводах, способных изменить правила игры. Звучит замечательно. Однако моя повседневная работа с клиентами свидетельствует о другом. Они сражаются за то, чтобы извлечь пользу из растущей горы данных, которые у них прямо под носом. Быстрая оценка таких данных может стать фактором изменения всей игры, хотя большинство компаний даже не приступало к их изучению. Так что забудьте про большие данные. Вся эта шумиха вокруг них угрожает сбить компании с пути в самый неподходящий момент ”.
Однако Марк Бейер, аналитик исследовательской компании Gartner, считает, что проблемы чрезмерно большого объема данных не существует, поскольку само понятие больших данных представляет собой фундаментальный сдвиг в способе представления и изучения информации. Если компании не смогут извлечь пользу из массивов, получаемых с помощью технологий больших данных, они упустят шанс обогнать своих конкурентов на 20% к 2015 г.
Последний отчет O'Reilly Strata Conference, составленный по результатам опроса ста участников конференций, показал следующие результаты:
- 18% уже имеют решение для работы с большими данными;
- 28% не имеют планов в этой области в настоящее время;
- 22% планируют внедрить решение по работе с большими данными в ближайшие шесть месяцев, 17% — в течение года, 15% — в течение двух лет.
Проведенный фирмой Techaisle в США опрос восьмисот компаний, относящихся к сегменту СМБ (средний и малый бизнес), показал, что независимо от размера бизнеса примерно треть опрошенных заинтересована в перспективе работы с большими данными. Их главной проблемой был недостаток опыта. Так могут ли компании позволить себе не прыгнуть в уходящий поезд?
Когда настает время больших данных?
Шварц не думает, что предприятия должны погружаться в тему больших данных, если они не считают, что это принесет ответы на их вопросы. С ним согласна Джил Дюше, вице-президент по интеллектуальному лидерству компании DataFlux Corporation.
“Лидеры индустрии должны быть в состоянии описать проблему, которую они хотят решить с помощью больших данных, будь то ускорение имеющихся процессов (например, по выявлению мошенничества) или внедрение новых, ранее считавшихся непрактичными либо слишком дорогими (например, потоковая передача данных от “умных” датчиков или оценка влияния пиковых значений метеорологической информации на колебания спроса). Если вы не можете сформулировать цель своих усилий в области больших данных, не стоит начинать ими заниматься”, — отметила она в своем посте в блоге Harvard Business Review.
Этот процесс требует понимания того, какие данные необходимы для принятия оптимальных решений. Если наилучшим способом получения таких сведений является анализ больших данных, то скорее всего пора начать движение в этом направлении. Если такие сведения можно получить с помощью обычной технологии бизнес-анализа, то, возможно, время для применения больших данных еще не настало.
Насколько велика разница между бизнес-аналитикой и большими данными?
Крейг Бати, исполнительный директор по маркетингу и директор по технологиям Fujitsu Australia, указывает, что сейчас бизнес-анализ является описательным процессом анализа результатов, достигнутых бизнесом в определенный период времени, между тем как скорость обработки больших данных позволяет сделать анализ предсказательным, способным предлагать бизнесу рекомендации на будущее. Технологии больших данных позволяют также анализировать больше типов данных в сравнении с инструментами бизнес-аналитики, что дает возможность фокусироваться не только на структурированных хранилищах.
Мэтт Слокум из O'Reilly Radar считает, что хотя большие данные и бизнес-аналитика имеют одинаковую цель (поиск ответов на вопрос), они отличаются друг от друга по трем аспектам.
- Большие данные предназначены для обработки более значительных объемов информации, чем бизнес-аналитика, и это, конечно, соответствует традиционному определению больших данных.
- Большие данные предназначены для обработки более быстро получаемых и меняющихся сведений, что означает глубокое исследование и интерактивность. В некоторых случаях результаты формируются быстрее, чем загружается веб-страница.
- Большие данные предназначены для обработки неструктурированных данных, способы использования которых мы только начинаем изучать после того, как смогли наладить их сбор и хранение, и нам требуются алгоритмы и возможность диалога для облегчения поиска тенденций, содержащихся внутри этих массивов.
Согласно опубликованной компанией Oracle белой книге “Информационная архитектура Oracle: руководство архитектора по большим данным” (Oracle Information Architecture: An Architect's Guide to Big Data), при работе с большими данными мы подходим к информации иначе, чем при проведении бизнес-анализа.
Работа с большими данными не похожа на обычный процесс бизнес-аналитики, где простое сложение известных значений приносит результат: например, итог сложения данных об оплаченных счетах становится объемом продаж за год. При работе с большими данными результат получается в процессе их очистки путём последовательного моделирования: сначала выдвигается гипотеза, строится статистическая, визуальная или семантическая модель, на ее основании проверяется верность выдвинутой гипотезы и затем выдвигается следующая. Этот процесс требует от исследователя либо интерпретации визуальных значений или составления интерактивных запросов на основе знаний, либо разработки адаптивных алгоритмов “машинного обучения”, способных получить искомый результат. Причём время жизни такого алгоритма может быть довольно коротким.
3. Как мы можем использовать большие данные?
Технологии
RDBMS
До появления больших данных традиционный анализ предусматривал занесение информации в традиционную БД. Этот подход основывался на модели реляционных БД, использующей таблицы для хранения данных и отношений между ними. Данные обрабатывались и запоминались в строках таблиц.
C течением времени БД совершенствовались и сейчас используют массовую параллельную обработку, когда данные разбиваются на небольшие группы и обрабатываются одновременно на многих узлах, что обеспечивает значительное ускорение работы. Вместо хранения информации в строках таблиц БД могут также использовать архитектуры столбцов, которые позволяют обрабатывать только столбцы с данными, необходимыми для формирования результатов запроса, и, кроме того, поддерживают хранение неструктурированной информации.
MapReduce
Технология MapReduce представляет собой комбинацию двух функций, улучшающих обработку данных. Сначала map-функция разделяет данные на несколько групп, которые затем обрабатываются параллельно. Затем reduce-функция объединяет результаты расчетов в варианты ответов.
Компания Google использовала технологию MapReduce для индексирования сети Интернет и получила патент на свою MapReduce-платформу. Однако постепенно эта методика начинает использоваться все шире и шире, наибольшую известность получила ее реализация в проекте Hadoop на основе открытого кода (об этом чуть ниже).
Массовая параллельная обаботка (MPP)
Подобно технологии MapReduce, MPP обрабатывает данные, распределяя их по множеству узлов, которые выполняют обработку распределенных данных одновременно. На основании полученных данных собирается общий результат.
Однако для обращения к MPP-продуктам используется язык запросов SQL, в то время как MapReduce непосредственно контролируется с помощью Java-кода. MPP также широко используется на специализированных дорогих аппаратных платформах (иногда называемых программно-аппаратными комплексами для работы с большими данными), в то время как для работы технологии MapReduce применяются обычные компьютерные системы.
Обработка сложных событий
Методика обработки сложных событий предполагает онлайн-обработку информации из различных источников, зависящей от времени. Например, данных о местоположении мобильных телефонов или информации от системы датчиков для прогнозирования, выделения или классификации интересующих событий. В частности, данные, поступающие от датчиков, могут лечь в основу предсказания сбоя оборудования, даже если они кажутся совершенно не связанными друг с другом. Обрабатывать сложные события в больших объемах данных можно с помощью технологии MapReduce, разделяя информацию на порции, не связанные друг с другом. Например, данные датчиков для каждого участка оборудования могут пересылаться для обработки на отдельный узел.
Hadoop
Платформа Hadoop на основе открытого кода была разработана с помощью технологии MapReduce для параллельной обработки больших объемов информации на множестве узлов стандартного недорогого оборудования.
Информация разделяется на блоки и загружается в файловое хранилище данных, например Hadoop Distributed File System (HDFS), организованное как несколько избыточных узлов на недорогом запоминающем устройстве. Узел name протоколирует размещение данных на конкретных узлах. Данные реплицируются более чем на одном узле, что обеспечивает их сохранность в случае выхода какого-либо узла из строя.
Затем данные можно анализировать с помощью технологии MapReduce, которая определяет местонахождение необходимых для расчета сведений из узла name. После этого обработка на узлах идет параллельно. Результаты расчетов обобщаются для составления ответа на запрос и затем загружаются на узел, который впоследствии доступен для анализа с помощью других инструментов. В качестве альтернативы возможна загрузка полученных сведений в традиционные хранилища для обработки с помощью транзакций. В качестве наиболее примечательного дистрибутива Hadoop называют Apache.
NoSQL
Системы управления базами данных на основе парадигмы NoSQL не похожи на системы управления реляционными БД, поскольку не используют SQL в качестве языка запросов. Такие системы считаются более подходящими для работы с данными, не укладывающимися в стандартные таблицы реляционных БД. Они обходятся без перезагрузки индексирования, схемы и ACID-свойств транзакций при создании огромных, реплицированных хранилищ данных для выполнения аналитических работ на экономичном оборудовании, подходящем для работы с неструктурированными данными.
Cassandra
Cassandra представляет собой альтернативу для Hadoop HDFS, — это БД, выполненная как NoSQL.
Hive
Базы данных, подобные файловому хранилищу Hadoop, затрудняют ad hoc-запросы и аналитику, поскольку требуемое для этого программирование функций map/reduce является весьма сложной задачей. Осознав это обстоятельство в процессе работы с Hadoop, компания Facebook создала собственное хранилище данных Hive, преобразующее SQL-запросы в задания map/reduce, которые выполняются с использованием Hadoop.
Поставщики программных продуктов
Вряд ли сейчас найдется поставщик программных технологий, не разрабатывающий собственный план действий в отношении больших данных. При этом многие компании стараются увязать свою собственную технологию в области БД с технологией Hadoop и предложить результат в качестве собственной стратегии по решению задач, связанных со скоростью обновления, разнородностью и объемом информации. Чтобы понять, сколько компаний-разработчиков сейчас работает в каждой из областей, относящихся к большим данным, достаточно взглянуть на диаграмму, составленную Forbes.
Многие ранние технологии работы с большими данными разработаны на основе открытого кода и создают угрозу традиционным разработчикам программных продуктов, продающим права на свое ПО и максимально строго защищающим свою интеллектуальную собственность. Ориентация на открытый код открывает возможности для традиционных ИТ-компаний, поскольку корпоративные пользователи и государственные органы с недоверием относятся к системам на открытом коде.
Таким образом, традиционные компании-поставщики приветствовали Hadoop с распростертыми объятиями, добавляя его к своим собственным системам и продавая результат корпоративным заказчикам как наиболее удобные и привычно оформленные приложения. Ниже мы изложили планы некоторых крупных поставщиков ПО.
Cloudera
Компания Cloudera была основана в 2008 г. выходцами из Yahoo и Facebook, работавшими с технологией Hadoop. Компания внесла свою лепту в развитие Hadoop, бесплатно предлагая версию дистрибутива. Она продает также подписку на дистрибутивы Hadoop для корпоративных заказчиков, включающую техническую поддержку и инструменты управления Hadoop.
С момента создания этот дистрибутив был выбран различными компаниями — разработчиками ПО в качестве базовой платформы для разрабатываемых ими решений в области больших данных. В 2010 г. компания Teradata стала одним из первых партнеров Cloudera, когда две фирмы согласились связать дистрибутив Hadoop с предлагаемым Teradata хранилищем данных, обеспечив покупателям возможность обмена информацией между ними. Примерно в это же время компания EMC заключила аналогичное соглашение относительно своего собственного хранилища данных Greenplum. В прошлом году SGI и Dell подписали соглашения с Cloudera по поводу сотрудничества в области компьютерных платформ, а в нынешнем к ним присоединились Oracle и IBM.
Hortonworks
Конкурирующая с Cloudera компания Hortonworks была основана архитекторами команды, работавшей над проектом Yahoo Hadoop. В июне 2012 г. компания запустила отказоустойчивую версию Apache Hadoop, разработанную совместно с VMware и получившую название Hortonworks Data Platform. Новая платформа разрабатывалась в расчете на те предприятия, которые планируют приступить к развертыванию Hadoop на VMware vSphere.
Компания Teradata заключила соглашение о партнерстве и с Hortonworks для создания продуктов, которые “…помогут покупателям решить бизнес-проблемы новыми и лучшими способами”.
Teradata
Teradata сделала свой шаг от “старомодного мира” хранилищ данных, купив в 2011 г. фирмы Aster Data Systems и Aprimo. Компанию привлекли разработанные Aster возможности управления набором разнородных неструктурированных данных, таких, как Web-приложения, распределенные сети датчиков, социальные сети, данные геномики, видео- и фотоматериалы.
Сейчас Teradata выпустила на рынок Aster Data nCluster — БД, использующую технологии MPP и MapReduce. Визуализация и аналитика доступны с помощью среды визуальной разработки Aster Data и набора аналитических модулей. Конннектор к Hadoop, доступный в результате соглашения с Cloudera, позволяет обмениваться информацией между nCluster и Hadoop.
Oracle
В начале нынешнего года корпорация Oracle представила свой программно-аппаратный комплекс для работы с большими данными — полную стойку из 18 серверов Oracle Sun, обладающую следующими характеристиками: объем оперативной памяти 864 Гб; 216 процессорных ядер; 648 Тб дискового пространства; шина InfiniBand, связывающая узлы и инженерную подсистему с пропускной способностью 40 Гбит/c; поддержка Ethernet-соединения 10 Гбит/с.
Система включает дистрибутив Apache Hadoop и ПО управления компании Cloudera, а также базу данных NoSQL компании Oracle и дистрибутив программной системы R (пакет статистических вычислений и графическая среда на основе открытого кода). Система интегрируется с БД Oracle 11g. По замыслу разработчиков это должно позволить покупателям использовать Hadoop MapReduce для создания оптимизированных наборов данных с их последующей загрузкой и анализом средствами БД Oracle.
IBM
IBM соединила Hadoop со своими собственными патентами, создав в результате IBM InfoSphere BigInsights и IBM InfoSphere Streams — ключевые продукты в борьбе на рынке больших данных. Система BigInsights, обеспечивающая анализ крупномасштабных структурированных и неструктурированных данных, “расширяет возможности Hadoop для соответствия требованиям вашего предприятия”, указывает IBM. Это решение добавляет функции администрирования, управления бизнес-процессами, предоставления прав и защиты информации к дистрибутиву, созданному на открытом коде. Между тем потоковый анализ более тщательно фокусируется на обработке событий, обеспечивая постоянный анализ потоковых данных, что позволяет компаниям оперативно реагировать на происходящие события.
Партнерство IBM с Cloudera позволило ей интегрировать дистрибутив Hadoop и систему управления Cloudera с IBM BigInsights. Подобно решению Oracle для работы с большими данными, IBM BigInsights может интегрироваться с БД IBM DB2, с ее программно-аппаратным хранилищем данных Netezza (высокопроизводительная аналитическая petascale-платформа с широким применением параллельных вычислений, способная обрабатывать огромные объемы данных), с хранилищем данных InfoSphere Warehouse и с собственной системой Smart Analytics System.
SAP
Основу стратегии SAP в области больших данных составляет представленное в 2011 г. хранилище данных на платформе высокопроизводительного аналитического программно-аппаратного комплекса (high-performance analytic appliance — HANA). В этом комплексе реализована технология вычислений in-memory, обеспечивающая обработку в реальном времени больших объемов данных в оперативной памяти сервера для получения результатов, касающихся аналитики и транзакций. (В начале 2012-го на рынке появился конкурирующий продукт Oracle Exalytics.) Размещение на платформе HANA бизнес-приложений, таких как SAP Business Objects, обеспечивает серьезный выигрыш в их производительности.
SAP состыковала систему HANA с Hadoop, позволив покупателям обмениваться данными между Hive, Hadoop Distributed File System и SAP HANA или SAP Sybase IQ server. Компания учредила также партнерский совет по большим данным, который будет работать над созданием продуктов, способных в полной мере воспользоваться преимуществами HANA и Hadoop. Ключевым партнером SAP является Cloudera. Стратегия компании направлена на обеспечение легкого доступа к данных, хранятся ли они в системах SAP или в продуктах другого разработчика.
Microsoft
В настоящее время Microsoft интегрирует Hadoop в текущие версии своих продуктов. Компания сотрудничала с Hortonworks, чтобы обеспечить доступность Hadoop на своей облачной платформе Azure и на Windows Server. В настоящее время Hadoop на Azure доступен в превью-версии для разработчиков. Уже существуют коннекторы для соединения Hadoop, SQL Server и SQL Server Parallel Data Warehouse, а также реализована возможность экспорта данных из Hive в Excel и созданы инструменты бизнес-аналитики, такие как Microsoft PowerPivot.
EMC
EMC строит свою стратегию в области больших данных на технологии, приобретенной вместе с фирмой Greenplum в 2010 г. Компания предлагает объединенную аналитическую платформу, взаимодействующую с Интернетом, социальными сетями, документами, мобильными устройствами и мультимедийными данными, используя Hadoop MapReduce и HDFS, в то время как данные ERP-, CRM- и POS-систем заносятся в SQL-хранилища. Интеллектуальный анализ данных, нейронные сети и статистический анализ осуществляются на основании данных из обоих источников.
Что заказчики делают с этими продуктами?
Теперь, когда появились продукты, способные извлекать пользу из больших данных, каковы планы клиентов в этой области? Приведём некоторые из них.
Ford
Компания Ford изучает возможности Hadoop, пытаясь оценить, сможет ли она что-то выиграть от анализа данных по своим бизнес-операциям, исследовательским работам и даже поведению автомобилей своих покупателей.
“В каждом автомобиле установлено огромное количество датчиков; до сих пор большинство информации от этих датчиков оставалось внутри автомобиля, но мы думаем, что можно собрать эти сведения, чтобы лучше понять, как на самом деле функционирует автомобиль и как покупатели используют наши автомашины. Результаты были бы полезны нашим конструкторам для большей удовлетворенности клиентов в будущем”, — заявил Джон Джиндер, руководитель направления аналитики больших данных компании Ford.
HCF
Компания HCF выбрала для обработки больших данных решение IBM, включая программно-аппаратный комплекс Netezza, с целью усовершенствовать анализ заявлений о страховых случаях, подаваемых в реальном времени. Это должно облегчить распознавание случаев мошенничества и предоставление больным информации, которая им необходима для лечения.
Klout
Бизнес компании Klout заключается в выявлении тенденций и формулировании выводов на основе анализа огромных объемов данных, получаемых от 100 млн. пользователей социальных сетей, которые она индексирует, и продаже этих выводов своим заказчикам. Например, Klout может рассчитать, как влияние определенных людей на социальные сети (индекс степени влияния пользователя в социальных сетях получил название Klout score) может воздействовать на рекламный эффект “сарафанного радио” или предложить данные по изменению спроса. Для выполнения анализа с минимальными затратами компания создала собственную инфраструктуру на основе Apache Hadoop с отдельным хранилищем данных для каждой социальной сети. Для извлечения данных из хранилищ Klout использует настроенные веб-сервисы. Однако обслуживание такой адаптированной инфраструктуры оказалось очень сложным и занимало слишком много времени, поэтому компания перешла на работу с системой бизнес-анализа на основе Microsoft SQL Server 2012 и хранилища данных Hive, в котором Klout консолидировала данные из старых хранилищ. Сейчас эта система способна анализировать 35 млрд. строк данных ежедневно, со средним временем обработки запроса около десяти секунд.
Mitsui knowledge industry
Эта научная организация занимается анализом генома в целях борьбы с онкологическими заболеваниями. Внедрение систем HANA, R и Hadoop для предварительного обследования цепочек ДНК позволило компании сократить время анализа генома с нескольких дней до двадцати минут.
Nokia
Компания Nokia использует информацию, генерируемую ее мобильными телефонами по всему миру, самыми разными способами — например, для создания карт, позволяющих прогнозировать трафик, или для построения многоуровневой модели рельефа. Раньше информацию от каждого мобильного приложения разработчики помещали в хранилища данных, однако компания захотела объединить все данные, собираемые глобально, в одном месте и сделать внутри систему перекрестных ссылок. В этой связи компании потребовалось создание инфраструктуры, которая могла бы поддерживать терабайтные потоки неструктурированных данных от телефонов, сервисов, журналов и из других источников, а также инструменты анализа этих данных. Решив, что выгрузка неструктурированных данных в структурированную платформу потребует слишком больших расходов, компания начала тестировать Apache Hadoop в сочетании с Cloudera CDH. Поскольку у самой Nokia не было необходимого опыта работы с Hadoop, она обратилась за помощью в Cloudera. В 2011 г. центральный CDH-кластер был введен в рабочую эксплуатацию в качестве корпоративного информационного ядра компании. Сейчас Nokia применяет эту систему для накопления информации, используемой в дальнейшем для создания трехмерных карт, которые показывают движение транспорта с учетом ограничений скорости, рельефа, текущих событий и видеоматериалов.
Walmart
Торговая сеть Walmart использует приобретенное решение Muppet вместе с Hadoop для анализа данных социальных медиа, таких как Twitter, Facebook, Foursquare и другие ресурсы. Помимо прочего это позволяет Walmart анализировать в реальном времени количество посещений и вычислять магазины с максимальным наплывом посетителей в ближайшем будущем, основываясь на регистрации в Foursquare.
4. Подводные камни — где именно?
Вы знаете, где находятся ваши данные?
Не имеет смысла внедрять решение по работе с большими данными только для того, чтобы понять, что критически важные сведения разбросаны по всей организации в недоступных, а возможно, и просто неизвестных местах. Генри Селден, вице-президент компании Qlikview по глобальному отраслевому маркетингу, отметил, что большинство предприятий уже сейчас не владеют всей информацией внутри собственных организаций и просто погибнут при попытках анализа дополнительных сведений, полученных в результате обработки больших данных.
Выбор пути
Согласно прогнозу компании IDC рынок инструментов работы с большими данными вырастет с 3,2 млрд. долл. в 2010 г. до 16,9 млрд. долл. в 2015-м. Совокупный среднегодовой уровень роста (CAGR) будет составлять около 40%, что примерно в семь раз больше, чем для рынка компьютерных и коммуникационных технологий в целом. При этом Gartner считает, что до 2015 г. более 85% компаний из списка Fortune 500 потерпят неудачу в попытках получить конкурентное преимущество от технологий работы с большими данными: “Сбор и анализ данных — это еще не всё, что необходимо; результаты должны быть вовремя готовы для принятия на их основании соответствующих решений, непосредственно влияющих на производительность, прибыльность и эффективность работы. В большинстве своем компании недостаточно подготовлены к решению технических и управленческих проблем, связанных с обработкой больших данных. Как следствие, лишь некоторые из них будут в состоянии эффективно воспользоваться этим направлением для получения преимуществ в конкуренции”. До тех пор, пока компании не поймут, ответы на какие вопросы они хотят получить и каких бизнес-целей добиться, проекты в области больших данных не дадут положительных результатов, считают аналитики.
Аналитическая компания Ovum в своем отчете “Тенденции 2012 года, которые необходимо отслеживать: большие данные” (2012 Trends to Watch: Big Data) указывает, что предприятия не должны приступать к анализу данных только потому, что накопили определенный объем информации; это решение должно приниматься в рамках общей бизнес-задачи.
“Посмотрите на стоящие перед компаниями бизнес-задачи, такие как максимальное удержание клиентов или повышение операционной эффективности, и попробуйте понять, принесет ли расширение или углубление масштаба аналитики реальную выгоду для бизнеса”, — подчеркивают в Ovum.
Недостаток мастерства
Даже если компания примет решение внедрять технологии обработки больших данных, она может столкнуться с трудностями в привлечении компетентных сотрудников. Вот что пишет австралийская консультационная фирма Longhaus: “От специалиста по работе с данными (как и по интеллектуальному их анализу) требуется уникальное сочетание компетенций, включая хорошую подготовку в области математики и статистики; глубокое знание таких статистических инструментов, как SAS, SPSS или основанный на открытом коде статистический пакет R; способность находить закономерности в данных. Все это должно подкрепляться хорошим знанием предметной области и превосходными навыками в коммуникации для понимания задач аналитики и способов их решения”.
Найти специалистов, удовлетворяющих такому сочетанию требований, весьма непросто: по данным консалтинговой компании McKinsey, в США нехватка специалистов с глубокими аналитическими способностями составляет от 140 до 190 тысяч человек, также требуется около полутора миллионов менеджеров и аналитиков для работ по анализу больших данных и принятия решений на основе полученных результатов.
Для штатных сотрудников важно хорошо понимать, что именно они делают, считает Стюарт Лонг, директор по технологиям отделения систем компании Oracle Asia Pacific: “Большие данные формируют отношения, и затем только от вас зависит решение, являются ли они достоверными с точки зрения статистики или нет. Количество перестановок и возможностей, которые вы можете осуществить, означает, что многие люди могут начать влиять на результат. Понимание того, что вы ищете, является ключевым фактором успешного анализа”.
Специалист по обработке данных Ди Джей Патил, бывший до прошлого года директором социальной сети LinkedIn по продуктам для работы с информацией, в своем труде “Создание команд по работе с данными” (Building data science teams) сообщил, что он ищет людей с техническим опытом в научных дисциплинах, в меру любопытных для работы над проблемой до тех пор, пока у них не появится гипотеза, готовая к проверке, с талантом писателя для создания истории на основе имеющихся данных и достаточно умных для того, чтобы смотреть на проблему с различных точек зрения.
По его мнению, компании будут вынуждены привлекать людей, опыт работы которых в этой области давал им возможность создавать что-либо новое, либо нанимать молодых специалистов, только что выпущенных из университетов, и направлять их на стажировку для повышения квалификации. Он считает также, что конкуренция приведет к росту зарплаты таких специалистов.
Персональные данные
Отслеживание персональных данных клиентов с целью стимулирования спроса кажется привлекательной идеей для продавца, но не выглядит необходимой для покупателя этой продукции. Не все хотят, чтобы их жизнь стала предметом анализа, и в зависимости от того, как будут развиваться правила использования персональных данных, различные в разных странах, компании будут проявлять осторожность в своих планах работы с большими данными, включая методы сбора информации. Такие правила могут привести к штрафам в случае особо агрессивной политики в этой области, однако ещё бóльшим риском может стать утрата доверия.
Хорошим примером опасности для репутации компании, использующей в своем бизнесе данные о частной жизни покупателей, служит известная история с фирмой Target, которая выслала девушке-подростку купоны на покупку товаров, связанных с беременностью. По результатам анализа поведения этой девушки компания Target пришла к выводу о ее беременности. К сожалению, отец девушки ничего не знал о беременности своей дочери и выдвинул обвинения против компании. Позже он был вынужден признать, что его дочь действительно была беременна. Впоследствии Target заявила, что она понимает, что люди могут расценивать выводы о беременности покупателя на основании анализа данных о покупках как нарушение их частной жизни. В конце концов компании пришлось изменить свою торговую практику в области рассылки купонов по почте.
Безопасность
Покупатели доверяют компаниям обеспечение безопасности своих персональных данных. Однако поскольку большие данные представляют собой совершенно новую область, продукты для них разрабатывались без должного внимания к вопросам безопасности, несмотря на тот факт, что огромные объемы хранимых сведений делают задачу обеспечения безопасности их хранения более важной, чем когда-либо ранее.
За последние год-два произошло несколько получивших широкую огласку случаев утечки конфиденциальных данных, включая утечку сведений о сотнях тысяч покупателей Nvidia, о миллионах покупателей продукции Sony и о сотнях тысяч клиентов компании Telstra. Правительство Австралии обещает рассмотреть законы об уведомлении о случаях утечки конфиденциальных сведений с момента проведения в 2008 г. анализа безопасности персональных данных, и, согласно Бюро Австралийского комиссара по информации (OAIC), ждать осталось недолго. Бюро советует компаниям быть готовыми к ситуации, когда они будут обязаны сообщить клиентам о случаях утери и кражи их персональных данных. Кроме того, OAIC сообщило, что будет принимать жесткие меры к организациям, проявляющим безответственность при хранении конфиденциальных сведений.
5. Шаги к большим данным.
Если вы решили двигаться в направлении больших данных, важно полностью подготовиться и подойти к реализации проекта максимально организованно, ответив себе на ряд вопросов.
- Что вы бы хотели знать? Здесь надо решить, что именно вы желаете выяснить с помощью больших данных такого, чего не можете получить от ныне существующей системы. Если ответ — ничего, то, может, стоит подождать с запуском этого проекта.
- Что представляют собой ваши информационные активы? Можете ли вы построить в этих активах систему перекрестных ссылок, чтобы сформулировать некие закономерности и сделать выводы? Возможно ли создание новых продуктов для работы с данными на основе этих активов? Если нет, тогда чтó нужно сделать, чтобы это стало возможно?
- Как только вы это выясните, время расставить приоритеты. Выберите потенциально самую ценную область для применения техник и технологий больших данных, подготовьте экономическое обоснование проекта для запуска “пилота” (подтверждения концепции), обращая внимание на набор компетенций, который вам потребуется при внедрении. Вам нужно будет побеседовать с владельцами данных для получения полной картины.
- Запустите пилотный проект и убедитесь в наличии хорошо сформулированного критерия его завершения, чтобы оценить достигнутые результаты. Это может быть хорошим моментом, чтобы предложить владельцу информационных ресурсов принять на себя ответственность за проект.
- По завершении “пилота” оцените, работает ли он. Получаете ли вы реальные выводы и рекомендации? Приносит ли работа свои плоды? Может ли этот проект быть повторен в других частях организации? Существуют ли другие данные, которые можно включить в него? Это поможет ответить на вопрос — стоит ли запускать полный проект на основе сделанного “пилота”, или необходимо что-либо подкорректировать?
Ну так чего же вы ждете? Время думать в масштабе больших данных!