Большие данные зачастую расценивают, скорее, как модный термин, чем что-то реальное. Однако рассказы пользователей о своих проектах на конференции Big Data Innovation, состоявшейся в середине сентября в г. Бостоне, позволяют лучше понять, какие возможности могут открыть для себя компании, используя большие данные. Вот мои пять главных выводов из услышанного.
Крупные корпоративные проекты, обрисованные на Big Data Innovation Conference, показывают, почему анализ на базе больших данных становится реальностью, а не только модным выражением.
1. Традиционные инфраструктуры будут сосуществовать с гибридными. Хотя я уже писал на эту тему в блоге, она заслуживает повторения. Предприятия не собираются отказываться от инфраструктур для работы со структурированными данными. Соответствующие системы, типа поставляемых Oracle, IBM или Microsoft, поддерживают операции большинства крупных компаний.
Задачей руководителя, отвечающего за технологическую инфраструктуру данных, является сочетание этих работающих систем с гибридными системами, вмещающими неструктурированные внешние данные. Однако традиционным вендорам есть о чем призадуматься. Хотя существующие системы сохранятся, диаграмма за диаграммой в презентациях пользователей говорили о том, что традиционные системы остаются на прежнем месте, но новые деньги перетекают к новым вендорам и на новые платформы.
Компания StubHub имеет сеть данных из 25 структурированных и неструктурированных источников данных. По словам Састри Маллади, главного архитектора данных StubHub, чтобы избегать замыкания на проприетарной архитектуре, важно использовать продукты с открытым исходным кодом. И “в настоящий момент главная инновация состоит в том, как создать систему для гибридных данных”.
2. Мобильность форсирует инвестиции в большие данные. Мобильные устройства с их свободой места использования, коммуникациями и портативностью являются пользовательской платформой для новых заказных разработок в области больших данных. Фирма MapMy Fitness начала эту деятельность с картирования беговых маршрутов и потом распространила на разнообразные формы занятий фитнесом, а также личный мониторинг состояния здоровья.
Когда компания стала обслуживать уже 19 млн. человек, Мэтт Маклур, вице-президент MapMyFitness, разработал гибридную инфраструктуру частного и публичного облака, умеющую приспосабливаться к всплескам активности (например, летом возрастает число байкеров, а с началом нового года в ряды энтузиастов фитнеса обычно вливаются новые люди).
“Мы находимся в центре экосистемы здорового образа жизни и занятий фитнесом”, — говорит Маклур. Расширение требований в связи с дополнительным мониторингом клиентов побуждает компанию использовать методы работы с данными, аналогичные Facebook и Google.
3. Большие данные могут окружать существующие приложения, расширяя их возможности. StubHub начала с закупок и продаж билетов на спортивные и развлекательные мероприятия. Сегодня же компания действует в более широком ракурсе всего, что связано с этими мероприятиями, включая распространение сопроводительных материалов, проживание, питание и транспортное обслуживание.
Такие социально-сетевые сервисы требуют внедрения гибридной модели, где захватываются и анализируются гигантские объемы данных и на этой основе работают механизмы рекомендаций. Традиционные транзакционные системы попросту для этого не приспособлены.
4. С развитием Интернета вещей нынешние проекты больших данных будут выглядеть мелочью. Как заметил Пол Бэчтил, старший директор отделения Americas Technology Practice компании SAS, когда вы начинаете учитывать все данные, которые будут вливаться в организации по мере перехода Интернета вещей из идеи в реальность, “миллиард становится новым миллионом”.
Профессионализм, нужный для построения систем, захватывающих, хранящих и анализирующих данные, и создающих на этой основе прогнозы, сегодня в дефиците, и потому вендорам и заказчикам придется проявить новаторство в обучении людей новому делу. Бэчтил привел пример оснащения железнодорожных локомотивов датчиками, связанными с системой анализа данных, что позволило уточнять сроки ожидаемого износа частей оборудования и предотвращать неисправности.
5. Крупные инновации рождаются и на входном уровне спектра данных. Walmart пробует использовать краудсорсинг для установки цен на продукты и выбора картинок к описаниям продуктов. По словам Дигвиджая Ламба, старшего директора по разработкам Walmart Labs, применение на входном уровне процесса принятия решений методов типа краудсорсинга обогащает возможности использования больших данных.
Существующие системы для работы с большими данными хороши при анализе гигантских пулов уже собранных данных, но менее пригодны на уровне, когда данные поступают в систему. Краудсорсинг дает способ для ввода добавочных данных на входном уровне процесса обработки больших данных, и это улучшает результаты аналитики. “Нам надо расширять входной уровень систем”, — убежден Ламба.
Большие данные – это уже не просто модное выражение, но создание систем для работы с ними требует нового образа мышления о системах принятия решений, которые только начинают поступать на рынок.