Задолго до того как концепция больших данных овладела известным продавцом одежды Guess? (г. Лос-Анджелес), компания считала себя в некотором роде новатором в области Business Intelligence (BI). Вооруженная BI-приложением MicroStrategy на базе СУБД Oracle, она собирала массу данных о продажах и товарных запасах и использовала их для генерации информативных отчетов. Однако преимуществами этого инструмента пользовалась лишь небольшая группа продвинутых пользователей, которая активно работала с отчетами. Компании требовалось понять, каким образом надо вводить становящиеся все более ценными данные в BI-среду и затем передавать их в руки торговых специалистов, решающих, какие товары и в каких количествах должны направляться в конкретные магазины.
Компании типа Guess? и Ford Motor считают, что большие данные и бизнес-аналитика сродни любви и семейным узам: одного без другого не бывает.
“Это люди эмоционального склада, которые предпочитают работать непосредственно с товарами и визуально воспринимаемыми материалами. Убедить их углубленно заняться BI всегда проблема, — говорит о своих торговых работниках Майкл Релих, исполнительный вице-президент и CIO фирмы Guess? — Мы заставляли аналитиков выгружать информацию в электронные таблицы и затем вставлять в них вырезанные картинки. Это действовало очень эффектно”.
Дополнительной проблемой было и то, что СУБД не могла обрабатывать множащиеся данные и выдавать отчеты с той быстротой, которая бы устраивала растущие пожелания тех, кто занимался продажами. Скажем, если последние хотели выяснить, какие размеры одежды за последние шесть месяцев пользовались спросом в полутора с лишним тысячах розничных точкек компании, на выполнение соответствующих запросов к BI-системе могли уходить часы.
Решение проблемы наметилось четыре года назад, когда Релих и его команда стали искать более пригодные средства для обработки больших данных и в конечном счете выбрали платформу аналитики HP Vertica. Релиха привлекло то, что Vertica использует массивно-параллельную архитектуру для обработки запросов сразу на многих процессорных узлах и ее можно без труда масштабировать при помощи стандартной аппаратуры. Но даже при этом он не ожидал, что производительность платформы окажется стократно выше возможностей прежней СУБД. “Когда мы сделали первые запросы, система их выполнила так быстро, что мы подумали, будто данные оказались “битыми”, — вспоминает Релих. — Запросы, на которые система Oracle тратила минуты, в Vertica обрабатывались за секунды”.
Опыт Guess? подтверждает то же самое, что сегодня обнаруживают многие другие компании: большие данные, BI и бизнес-аналитика (BA) не просто питают друг друга, при использовании в тандеме они поднимают анализ данных на новый уровень. При наличии хорошего BI/BA-приложения пользователям легче работать с большими данными, а наличие технологий больших данных повышает ценность BI/BA-системы. “Дополнение вашей BI-практики большими данными — очень разумная вещь, — говорит Майк Мэтчет, старший аналитик Taneja Group. — Они очень хорошо сочетаются друг с другом”.
Теперь, когда на рынке появляются сравнительно недорогие аналитические сервисы и аппаратно-программные платформы наряду со средствами работы с большими данными на базе открытого исходного кода, эта практика будет получать все большее распространение, говорит Дана Гарднер, главный аналитик Interarbor Solutions.
Двойной упор Guess? на большие данные и BI побудил компанию разработать приложение для iPad, которое получило награду за новаторство от Data Warehousing Institute. Комбинируя графические материалы из своей системы э-коммерции с потоком информации из хранилища данных, Guess? теперь может быстро доставлять торговым специалистам данные о спросе и товарных запасах, дополненные визуальными элементами. “Это эквивалентно 18 разным пультам управления, объединенным в одно приложение”, — говорит Релих.
Теперь у сотрудников отдела продаж, которые должны были раньше разъезжать по магазинам с папками, набитыми устаревающей информацией, прямо под рукой имеются актуальные данные о трендах в продажах, складских резервах и наличии товаров в магазинах. Хотя приложение было предназначено для торговых работников, в число его 150 постоянных пользователей входят и региональные управляющие — их привлекает то, что оно помогает планировать товарные резервы.
Эффект от внедрения приложения оказался огромным. Уменьшились товарные уценки, улучшилось распределение ресурсов, а торговые работники и региональные управляющие стали лучше понимать, что, когда и в каком количестве требуется для сбыта.
“В розничной торговле главное — иметь правильное количество правильного товара в правильных местах, — говорит Релих. — Мы можем гораздо быстрее выяснять вопросы с наличием товара и реагировать на них”.
По словам Гарднер из Interarbor, это характерный пример результатов, которых стремятся достигнуть компании благодаря инициативам в области больших данных. “Они хотят иметь под рукой все возможные данные для принятия решений, причем максимально достоверные”, — говорит она.
Аналитика больших данных работает на успех
В Ford Motor использование аналитики с большими данными обусловило прибавку в 100 млн. долл. к годовой прибыли, и за этот результат компания получила награду по аналитике от Institute for Operations Research and the Management Sciences. Этого успеха ей помог добиться, в частности, Майкл Каваретта, технический руководитель группы исследований и перспективного проектирования по вопросам прогнозной аналитики и Data Mining, который сфокусировался на использовании данных для улучшения внутренних бизнес-процессов гиганта автомобильной отрасли.
Команда Каваретты задействует комбинацию средств работы с большими данными и бизнес-аналитических приложений, применяя ряд интересных приемов. Они формируют наборы данных из исходно разносортной информации, связывая бизнес-процессы с данными гарантийного обслуживания, маркетинга и т. п.; перерабатывая сообщения пользователей внутренних и внешних социальных сетей и выявляя, как они связаны с бизнес-процессами и как их можно использовать; собирая гигантские объемы данных, генерируемых транспортными средствами — не только для улучшения дизайна автомашин, но и для того, чтобы понять, какие типы данных можно собирать дополнительно. Последнее имеет особенно большое значение, так как производители автомобилей устанавливают в машины все больше разных датчиков, чтобы отслеживать их эксплуатационные характеристики, повышать уровень техобслуживания и совершенствовать проекты будущих моделей.
Например, датчики гибридного автомобиля Ford Fusion Energi с электрической подзарядкой от внешней сети генерируют и записывают 25 Гб разнообразных данных в час — от температуры двигателя, скорости и нагрузки на автомобиль до дорожных условий и общей рабочей эффективности. Этот поток данных может возрастать до 4 Тб в час при тестировании с использованием специальных инструментов, хотя, по словам Каваретты, через несколько лет эти инструменты могут превратиться в стандартное оборудование. Способность захватывать, хранить и анализировать такие данные, а затем применять добытую информацию к нужным процессам в реальном времени потребует тонко отлаженных платформ больших данных и аналитики.
Следуя по этому пути, Ford экспериментирует с разными технологиями, проприетарными и на базе открытого исходного кода. По словам Каваретты, его команда опробовала в плане больших данных такие средства, как Hadoop, HIVE и Pig, работала с традиционными СУБД типа SQLServer, MySQL, Oracle и Teradata, с BI/BA-ПО типа PASW Statistics и R компании IBM и специализированными инструментами Data Mining, такими как Weka, RapidMiner и KNIME.
Это естественный выбор продуктов, особенно если учесть, что большие данные, как прогнозируется, в сущности идут на смену BI.
“Поначалу многим казалось, что впереди все будет по-новому: осваиваешь большие данные — и BI отходит в прошлое, — говорит Каваретта. — Я считаю, это не так. Большие данные смогут сильно помочь многим BI-инициативам”.
Также и Мэтчет из Taneja Group отмечает, что для компаний было бы ошибкой поспешно внедрять большие данные, не имея реально работающих решений для BI или аналитики. “Если я решу просто инвестировать в большие данные, но при этом у меня не будет специальных приложений, я вряд ли получу отдачу”, — говорит он.
Ford работает над усилением своей связки между большими данными и BI/BA, и вряд ли можно сомневаться в правоте мнения Каваретты о том, что объединение этих двух технологий дает широчайшие возможности.
“Главное в больших данных состоит в том, что они меняют ценность аналитики”, — считает он. — Люди фокусировали BI/BA-средства на обработку крупных наборов данных, но не того уровня, когда необходимы технологии больших данных. Теперь же новые инструменты дают им возможность анализировать данные по-новому. Скоро технология многое упростит, и вы будете иметь дело просто с аналитикой, которая приносит пользу бизнесу”.