Бизнес, наука и академические исследователи имеют доступ к беспрецедентным объемам данных для добычи информации и обнаружения важных трендов — от разговоров в социальных сетях до паттернов покупательских интересов, транзакций с платежными картами и даже спортивной статистики.

Однако докладчики, выступавшие 10 июня на конференции Hadoop Summit в Сан-Хосе (шт. Калифорния), отмечали, что многие организации не знают про новые технические подходы, которые им можно использовать для анализа гор данных с целью извлечения осмысленной информации.

Для иллюстрации новых подходов, про которые должны знать компании, имеющие дело с большими данными, один из выступавших использовал спортивную статистику.

«В спорте мы буквально тонем в данных, но сами по себе они малоэффективны, если их не соединять с „малыми данными“», — сказал Дэвид Эпштейн, автор книги The Sports Gene: Inside the Science of Extraordinary Athletic Performance («Ген спорта: вглубь науки экстраординарных атлетических достижений»).

Он привел пример спринтеров, отметив, что результаты тех, кто постоянно финиширует первым или вторым, обычно отличаются всего лишь на доли секунды от результатов их преследователей. И новая область спортивной науки работает с «малыми данными», чтобы понять, как атлеты могут улучшить свои достижения.

Так, исследователи проанализировали три основные переменные, связанные с тем, как выполняет бросок главная тройка олимпийских толкателей ядра. Они обнаружили, что золотой медалист высвобождал ядро под углом на один градус выше, чем его соперники.

Исследователи применили новый подход и к изучению техники прыгунов в длину. Если прошлые исследования обращали внимание на такие вещи, как скорость разбега и сила отталкивания прыгуна от доски, сравнительно небольшой набор данных одного специалиста по биомеханике прыжка показал, что ключевым отличием победителя был угол отрыва. Используя эти данные, прыгун в длину из Великобритании изменил свои тренировки и выиграл золотую медаль, хотя ранее не принадлежал к фаворитам.

Какой урок для бизнеса содержится в этих примерах? Здесь, как и в спорте, различие между хорошим и лучшим зачастую составляет меньше процента. Например, компания может догадаться, что ее выходу в ведущие игроки рынка мешает всего лишь небольшая недоработка в обслуживании клиентов или в отклике на их запросы.

Hadoop приносит TrueCar огромную пользу

Одной из компаний, активно продвинувшихся по пути освоения больших данных, является сервис по покупке автомобилей TrueCar, поддерживающий работу огромной базы сиюминутных данных о ценах продажи. По словам Русса Фольц-Смита, заведующего платформой данных компании, когда он активизировал усилия по внедрению Hadoop-системы для управления своей «парой петабайтов» данных, самой сложной проблемой был поиск квалифицированных разработчиков.

Найдя немногих знающих кандидатов, он решил взять разработчика, чтобы он научился использованию Hadoop, а потом уже идти дальше. «Это было непростым решением, но сегодня у нас уже больше 25 специалистов по Hadoop, и мы отлично поняли, как можно расширять их штат». TrueCar в каждый момент времени активно использует 600 Тб данных и работает более чем с 20 млн. профилей покупателей.

«Наша идея состоит в том, чтобы стать мозговым центром отрасли, — говорит Фольц-Смит. — Важно понимать, что в автомобильной отрасли нельзя ошибаться. Если вы ошибаетесь, вы теряете транзакцию».

Оставаясь на передовых рубежах, TrueCar недавно разработала то, что Фольц-Смит называет продвинутой многомерной функцией поиска в реальном времени. «Она очень напоминает систему, работавшую в кинофильме „Особое мнение“. Это не научная фантастика», — сказал он.

Для TrueCar, использующей Hadoop в реализации HortonWorks Data Platform, большим плюсом работы с Hadoop является возможность масштабирования. По словам Фольц-Смита, объем данных TrueCar за последний год вырос в 24 раза, причем система обрабатывает 12 тыс. каналов данных и 65 млрд. значений данных.

В информационной базе компании также имеется около 700 млн. изображений автомобилей, которые могут просматривать покупатели. «Если нет изображения, автомобиль для покупателя не существует, — говорит Фольц-Смит. — И в эти изображения у нас вложена масса информации».

Загрязнено ли ваше озеро данных?

Уолтер Мэгайе, главный выездной технолог подразделения Big Data Business Unit компании HP, обсудил один из довольно спорных вопросов управления большими данными, так называемые «озера данных». Озеро данных представляет собой репозиторий, где хранятся большие количества необработанных данных в их родном формате, пока они не будут востребованы.

По словам Мэгайе, он слышал, как ИТ-специалисты презрительно именуют эту концепцию такими выражениями, как «свалка данных» и «болото данных», так как хотя озера данных, возможно, и являются удобным способом хранения огромных объемов сырых данных, в них не всегда легко добраться до нужных данных. «Один CIO мне посетовал, что в его озере данных Hadoop три петабайта, и он не знает, какая сотня терабайт представляет реальную ценность. И такие жалобы я слышу снова и снова», — сказал Мэгайе.

Обрисовав картину мутного, загрязненного озера, Мэгайе использовал образ чистого озера, чтобы описать решение HP под названием Haven for Hadoop, которое, по его словам, «делает озеро данных готовым для использования в бизнесе. Аналитик с ним может сидеть у консоли и находить нужные данные, в каком бы формате они ни были».

Квентин Кларк, главный технологический директор SAP, сказал, что данные и их оцифровка лежат в основе огромных изменений в обществе.

«Подумать только, мы живем в мире, где Uber и Airbnb являются крупнейшими компаниями по заказу такси и аренде жилья, хотя они не владеют никаким имуществом. Как это возможно? Все дело в данных. Эти компании глубоко вжились в данные, чтобы понимать ситуацию с точки зрения пожеланий пользователя», — сказал он.

По словам Кларка, он ожидает, что системы для работы с большими данными типа собственной in-memory СУБД HANA помогут трансформировать многие отрасли: «Можно полагать, что в ближайшем десятилетии преобразуются практически все стороны жизни. В розничной торговле вы сможете знать, в каком зале магазина находятся покупатели, и, используя большие данные, понимать в реальном времени, какие продукты им нужны, вы сможете эффективнее работать с торговыми партнерами и прямо в течение дня изменять работу магазина». Кларк надеется, что в нефтегазовой индустрии системы больших данных помогут компаниям заранее прогнозировать, когда их системам или оборудованию необходима приостановка для технического обслуживания, что сэкономит миллионы долларов.

А в сфере здравоохранения носимые устройства и другие успехи технологии станут новыми источниками огромной информации. «Мы должны стремиться сделать каждого врача более умным в реальном времени, чтобы его знания тут же дополнялись внешней информацией без необходимости копаться в медицинских журналах», — сказал Кларк.