Увеличивающееся количество гигантских массивов корпоративных данных и все технологии для их создания, хранения, перемещения, анализа, архивирования и извлечения информации — всё это “большие данные”. Огромный объем информации раздвигает границы хранилищ, серверов и периметров безопасности, создавая огромные проблемы для ИТ-отделов, подлежащие решению.
Где же точка перелома? Когда данные среднего размера становятся “большими данными”?
Исследовательская фирма Gartner описывает “большие данные” следующим образом: “объем, разнообразие и скорость структурированных и неструктурированных данных, текущих по сетям к процессорам и устройствам хранения, наряду с преобразованием этой информации в деловые советы для предприятий”.
Эти элементы могут быть разбить на три отдельные категории: размер, разнообразие и скорость.
Размер (терабайты, петабайты и, в конце концов, экзабайты): увеличивающийся объем бизнес-информации, созданной людьми и компьютерами, наносящий главный удар по ИТ-системам, старающимся сохранить и обезопасить всю эту информацию для будущего использования.
Разнообразие: “большие данные” — это увеличивающееся количество типов данных, которые нужно поддерживать другим образом, нежели обычную электронную почты, журналы или записи о кредитных картах. Сюда включаются данные с сенсоров и другие машинно-собираемые данные для научных исследований, медицинская и финансовая информация, мультимедиа: фотографии, презентации с графикой, музыкой, аудио и видео.
Скорость: быстрота перемещения данных в процессинг и хранилище.
“Проще говоря, этот термин [“большие данные”] относится к инструментам, процессам и процедурам, позволяющим создавать очень большие объемы данных и хранилища, манипулировать и управлять ими. “Означает ли это терабайты, петабайты или даже большие объемы данных? — пишет в своем блоге аналитик Дэн Кузнецки из компании Kuznetzky Group. — Ответ, предлагаемый [ИТ]-поставщиками, — да. Они могут сказать: “Вам нужны наши продукты для управления и лучшего использования этого массива данных”. Уже просто размышления о проблемах обслуживания огромных, динамических массивов данных причиняют мне головную боль”.
В добавление к скорости, разнообразию и объему есть и другой элемент для характеристики “больших данных” — ценность. “Большие данные” помогают бизнесу принять верное решение в правильный момент времени.
Вся информация, а не часть
Исторически программное обеспечение для анализа данных не могло работать с большим объемом данных — или хотя бы с большей их частью — для полного анализа запроса. Вместо этого для создания отчетов оно полагалось на репрезентативную выборку или подмножество информации, хотя анализ большего количества информации дает более корректные результаты.
Этот подход изменяется с появлением новых аналитических движков для работы с “большими данными”, таких как облачные аналитические сервисы Apache Hadoop, HPCC Systems от LexisNexis и 1010data. Эти новые платформы устраняют агрегирование, говорит Тим Негрис, старший вице-президент компании 1010data, являющейся облачным провайдером анализа данных. “Что касается “больших данных”, — отмечает он, — одно дело получить их и разместить где-то, и совсем другое — использовать их по-настоящему. Один из барьеров — большинство производителей баз данных, такие как Oracle, требуют большого объема работ (для подготовки данных) перед их использованием. Мы исключаем эту [фазу] и передаем данные непосредственно в руки аналитиков”.
Hadoop и HPCC Systems делают так же. Все три платформы предоставляют полный охват больших наборов данных. Вместо того чтобы тратить дни или даже недели работы аналитиков на создание 1-, 2- или 10-процентных выборок, все данные можно проанализировать за один раз, в реальном времени.
Что может вызывать беспокойство? То, что данные в хранилищах и облачных сервисах содержаться в базовом, необработанном виде. Истории, руководства и другая важная информация, погребенная в хранилищах и базах данных, могут при правильной интерпретации открыть глаза бизнес-руководителям, когда те принимают стратегические решения.
Питер Кохан, венчурный капиталист и консультант по менеджменту, президент компании Peter S.Cohan & Associates, преподаватель в Babson Colledge (Велесли, шт. Массачусетс), недавно привел убедительный пример в статье, опубликованной в журнале Forbes. Компания Wallmart хотела выяснить, какие товары являются наиболее продаваемыми среди тех, что люди покупают перед ураганом.
Ответ № 1 — батарейки — не был сюрпризом. Ответ № 2 был неожиданным — полуфабрикаты для тостов Pop-Tarts производства компании Kellogg. Оказывается, эта сахарная выпечка хороша в чрезвычайных ситуациях: легка, не требует приготовления и долго хранится без холодильника.
В результате получения этой информации Wallmart может запастись перед сезоном штормов тостами Pop-Tarts в магазинах на побережье. Инструменты бизнес-аналитики нового поколения великолепны в прямой помощи предприятиям при принятии умных решений.
Hadoop на рынке
Apache Hadoop, программное обеспечение с открытым кодом, за последние пять лет испытано в качестве анализатора данных большинством трекеров акций. Первоначально созданный Дугом Каттингом во время его работы в Yahoo, Hadoop получил свое имя от чучела слона (подходящий образ для того, что называется “большими данными”), принадлежащего сыну Каттинга. В настоящее время Каттинг является исполнительным директором компании Cloudera и президентом Apache Foundation.
Hadoop обрабатывает большие массивы данных, разбивая их на меньшие пакеты, более доступные для обработки, и распределяет их по нескольким серверам для анализа. (Быстрота является жизненно важной: подобно тому, как еда, нарезанная на мелкие кусочки, ускоряет процесс поедания и усвоение пищи.) Затем Hadoop обрабатывает запросы и предоставляет результаты запросов за гораздо меньшее время, чем аналитическое программное обеспечение старой школы, — чаще всего за минуты вместо часов и дней.
“Аналитики Gartner и IDC описывают “большие данные” как объем, скорость и разнообразие данных, и это те вещи, которые привлекают людей к Hadoop как к системе”, — говорит Чарльз Зедлевски, менеджер по продуктам компании Cloudera.
После того, как Каттинг и его команда в Yahoo предложили код Hadoop, он был протестирован и интенсивно использовался несколько лет в ИТ-системах Yahoo. Впоследствии компания предоставила код сообществу ПО с открытым кодом, и это открыло новый ИТ-сектор: создание продуктов на базе Hadoop.
Почему был открыт код? Потому что Каттинг и Yahoo во время разработки, тестирования и использования базового кода выяснили, насколько трудно его использовать. Они сразу же поняли, что прибыль можно будет получить из сопутствующих сервисов: интуитивно-понятного пользовательского интерфейса, кастомизированных развертываний и дополнительных функций.
В марте 2009-го стартап Cloudera стал первой независимой компанией, выпустившей продукты CDH и Cloudera Enterprise на базе аналитического движка Hadoop. Для запуска компании собралась впечатляющая группа инвесторов и консультантов, включая Диану Грин (основателя и бывшего исполнительного директора WMware), Катерину Фейк (сооснователя Flickr), Мартена Микоса (бывшего исполнительного директора MySQL), Джефа Вейнера (президента LinkedIn) и Гидеона Ю (финансового директора Facebook).
После дебюта Cloudera свои собственные версии Hadoop на базе свободно доступной архитектуры с открытым кодом создали несколько стартапов и компаний верхнего уровня.
Это по настоящему новый этап соревнования корпоративных ИТ. Он подобен эстафете, в которой у всех один вид эстафетной палочки (код Hadoop) и соревнование основано строго на индивидуальной скорости и креативности. В настоящее время гонка идет среди нового состава соперников в продвижении инструментов аналитики “больших данных” на основную массу предприятий наиболее эффективным способом.
Крупная ставка на IBM
IBM, первый пользователь движка среди производителей больших систем, предоставляет продукт InfoSphere BigInsighs, основанный на Hadoop, в базовой и Enterprise-версиях. Но у компании есть еще обширные планы.
4 августа на встрече в музее компьютерной истории в Маунтин-Вью (Калифорния) исполнительный директор IBM Сэм Палмизано сказал, что Голубой Гигант придает большое значение исследованиям и разработкам в области аналитики нового поколения, охарактеризовав их как “большую ставку” компании — проект требует не менее 100 млн. долл. инвестиций.
На том же мероприятии Лаура Хаас, доктор компьютерных наук и директор IBM Research, сообщила, что лаборатории IBM вышли далеко за пределы исследования “больших данных” и занимается анализом “экзаданных”. “Мы работаем над некоторыми весьма интересными вещами в этой области”, — сказала она.
Хаас не имела возможности обсуждать детали планов, зато Палмизано открыл их 4 августа в своей презентации: “Примерно через год вы увидите плоды нашей “большой ставки” на “большие данные”. Результаты работы, которую несколько последних лет мы ведем над Watson [компьютер IBM, выигравший в состязании Jeopardy! у двух чемпионов], будут использована в продуктах для многих важных применений, включая приложения для здравоохранения, науки и финансов”.
“Наши инженеры говорят, что им не так далеко до создания суперкомпьютера размером с коробку для обуви и эквивалентного человеческому мозгу”, — добавил он. “Большие данные” занимают все меньше места.
Другие дистрибутивы Hadoop
Компания-новичок MapR Technologies выпустила распределенную файловую систему и движок MapReduce — MapRDistribution for Apache Hadoop. Также в партнерстве с EMC, гигантом в области систем хранения и безопасности, она предоставляет клиентам EMC другой корпоративный Hadoop-пакет.
Другой разработчик, Platfom Computing, предоставил поддержку программного интерфейса Hadoop MapReduce в своем ПО Symphony. Silicon Graphics International также предлагает сервис и Hadoop-оптимизированные решения на базе серверных продуктовых линеек SGI Rackable и CloudRack.
4 августа анонсирована самая последняя редакция Hadoop — конфигурация Dell/Cloudera for Apache Hadoop. Она содержит Hadoop, интерфейс Cloudera Enterprise, программное обеспечение Dell Crowbar, сервер Dell PowerEdge C2100 и 48-портовый гигабитный коммутатор 3-го уровня PowerConneсt 6248. Обслуживание, поддержка и руководство по развертыванию включены в комплект поставки.
Появляются и альтернативы. В дополнение к облачному сервису 1001data компания LexisNexis Risk Solutions, в течении 10 лет использующая большую аналитическую систему собственной разработки, недавно объявила, что в качестве альтернативы Hadoop делится некоторой частью своей интеллектуальной собственности с сообществом ПО с открытым кодом.
Сервис-провайдер риск-менеджмента и обнаружения мошенничеств открыл доступ к суперкомпьютерной платформе HPCC Systemsс открытым колом, которая предлагается под двойной лицензией. Эта платформа может сортировать, объединять и анализировать миллиарды записей в секунду и управлять ими.
“Мы думаем, что выбрано правильное время, и верим, что HPCC Systems продвинет обработку “больших данных” на новый уровень”, — говорит исполнительный директор LexisNexis Risk Solutions Джеймс Пек.
“Дочка” материнской компании
В июне 2011-го Yahoo (создавшая Hadoop) и Benchmark Capital основали новую компанию, получившую имя Hortonworks в честь слона из произведения Др. Сьюза “Horton Hears a Who!”. Хотя ее возглавили несколько бывших сотрудников Yahoo, бизнес “дочки” останется независимым от материнской компании и Hortonworks будет разрабатывать свою собственную коммерческую версию.
Технический директор Yahoo Рэйми Стата, ключевая фигура в этом проекте, отвечает за все ИТ-разработки в компании. Хотя Hadoop переехал в новый дом, Стата заявил, что Yahoo не рассматривает новую компанию как отделившуюся.
“В результате в Yahoo будет больше людей, работающих над Hadoop и сопутствующими технологиями, чем только в Hortonworks, — говорит Стата. — Мы рассматриваем это как увеличение инвестиций в Hadoop”.
“Мы “засеваем” Hortonworks некоторыми нашими ключевыми талантами, поэтому отдельные сотрудники будут перемещаться из Yahoo в новую компанию. Но это не свертывание или отделение. Это увеличение инвестиций в Hadoop. Yahoo продолжает генеральное спонсорство всех аспектов продвижения Hadoop”, — добавил он.
Стата разъяснил, что у Yahoo всегда было стратегическое видение того, что Hadoop становится индустриальным стандартом в аналитическом программном обеспечении для “больших данных”, но он всегда знал, что Hadoop может занять свою собственную бизнес-нишу.
Одна из основных причин для создания Hortonworks, сообщил Стата, заключается в том, что Yahoo уже видела, что ждет в будущем аналитику на предприятиях (благодаря шести годам разработки Hadoop), и знала, как это будет работать. Стало ясно, что необходимость в анализе “больших данных” будет в скором времени настолько распространенной, что потребуется выделенная компания для фокусировки исключительно на этом — не на рекламе или веб-сервисах, которые являются хлебом Yahoo.
“Мы ведем настоящее корпоративное развертывание Hadoop, и я не думаю, что кто-нибудь еще делает это. Сегодня это решение уровня департамента, — сказал Стата. — Мне кажется, вряд ли потребуется несколько лет для того, чтобы другие смогли осуществить подобные внедрения. Разрыв между Yahoo и иными потребителями корпоративной аналитики сокращается”.
“Очень важно иметь независимую компанию, которая может быть партнером Yahoo и предвидеть болевые точки на предстоящем пути. Сейчас нам нужно наблюдать за другими покупателями и синтезировать эти знания с видением будущего в Yahoo. Очевидно, что независимая коммерческая компания делает это намного лучше, чем команда, работающая с открытым кодом в Yahoo”, — отметил он.
“То, что мы делаем на базе Hadoop, создает уникальную ценность для наших акционеров, — заключает Стата. — Если Hadoop станет индустриальным стандартом де-факто для обработки “больших данных”, это хорошо для нас. Наша миссия в том, чтобы быть открытыми в разработке Hadoop. Нам осталось сделать последний шаг”.
Технический директор Yahoo помогает Hadoop самоидентифицироваться
Полдюжины лет Hadoop был просто научным проектом по анализу данных, спрятанным и вскармливаемым в коконе департамента исследований и разработок Yahoo. Hadoop был под присмотром своего создателя Дуга Каттинга и его команды, руководство осуществлял Рэйми Стата, технический директор Yahoo.
Понимая, что Hadoop имеет большой потенциал, но зная, что в конечном итоге ему придется найти свое место в мире, Стата находился меж двух огней. Yahoo несколько лет испытывала финансовые трудности, и обладание потенциальной золотой жилой, такой как Hadoop, было привлекательным. Кроме того, для раскрытия полного потенциала Hadoop ему нужно было дать путевку в самостоятельную жизнь, создав Hortonworks и тем самым позволив экосистеме Hadoop укорениться и расцвести.
Наличие родственных отношений подняло вопрос о степени зависимости Hortonworks от Yahoo. “Hortonworks независима, — говорит Stata. — Yahoo является миноритарием. Мы — партнер, намеренный продолжать разработку этой основной технологии. Благодаря родственным отношениям мы имеем возможность интенсивно трудиться над продвижением технологии”.
Продвижение Hadoop со временем должно дать хороший доход компании Yahoo, которая будет предлагать поддержку, сервис и дополнительный функционал для лицензиатов Hadoop от Hortonworks.