Гибридные аппаратные инфраструктуры — важная тема из области корпоративных технологий. CIO и технические менеджеры хотят объединить возможности ЦОДов предприятий с облачными вычислениями, сохранив сделанные инвестиции и открыв дорогу новому. То же самое относится и к области анализа данных и бизнеса.
Архитекторы корпоративных данных стали обращаться к гибридным СУБД, которые могут обрабатывать структурированные и неструктурированные потоки для последующего анализа больших данных.
Я провел несколько дней на конференции Big Data Innovation Summit в Бостоне. Хотя там широко обсуждались концепции больших данных, Hadoop и социальных данных, основные дискуссии развернулись вокруг вопроса о том, как создать гибридную корпоративную структуру данных, объединяющую традиционные структурированные данные, которые обычно помещаются в хранилища, с неструктурированными данными, получаемыми из самых различных источников. Бурные дебаты вокруг объединения данных связаны с тем, что этот вопрос является действительно приоритетным для корпоративных технологий.
Традиционно структурированные данные, часто представленные в форме бизнес-транзакций, находятся в хранилище данных, а доступ к ним осуществляется с помощью SQL. Таковы решения Oracle, IBM и Microsoft, в которых хранилище является центральным репозиторием для клиентских транзакций компании, ее инвентарного списка и вообще всего, что хранится в виде столбцов и колонок. Именно такие данные являются объектом хранения, очистки и запросов с помощью бизнес-аналитики. Нет причин отказываться от хранилищ данных.
Зато есть много причин учитывать перемещения посетителей по веб-сайтам, общение в социальных сетях, эмоции и мультимедийные файлы, создаваемые вне компании, но важные с точки зрения ее процветания и ее будущего. Такие данные не поддаются фиксации, очистке и хранению традиционными способами.
Эти данные принадлежат миру Hadoop, HBase, NoSQL и прочих инструментов фиксации, хранения и анализа данных, разработанных компаниями-гигантами, выстроившими свой бизнес на использовании Интернета, такими как Google, Yahoo, Facebook и Twitter. Объемы хранения огромны, приемы составления запросов различаются (часто вы не знаете, что ищете, пока не получите данные), технические архитектуры и терминология не известны в мире традиционных баз данных.
“Традиционные базы данных не исчезают”, — сказал главный архитектор компании StubHub Састри Мальди. В 2007 г. эту компанию приобрела eBay за 310 млн. долл. Начинала StubHub с покупки и продажи билетов на различные мероприятия (и на нее подавала в суд организация New England Patriots). Затем компания расширила свою деятельность, начав предлагать в связи с проведением мероприятий помещения для проживания, транспортные услуги и развлечения.
Покупка и продажа билетов — классический случай транзакций, тогда как окружающие мероприятие мнения и атмосфера являются неструктурированными и нетранзакционными. Задача объединения транзакционной и неструктурированной информации и создания гибридной системы стоит перед многими предприятиями. Мальди сейчас приходится иметь дело с 25 различными источниками данных.
Чем больше неструктурированных данных появляется в компании, тем более структурированным должен быть ваш подход ко всем их источникам. StubHub использует при управлении данными четырехуровневый подход. Данные и средства управления ими размещены в инфраструктуре частного облака eBay.
На нижнем уровне находятся те самые 25 источников, наполняющих инфраструктуру данными, среди которых есть как структурированные, так и неструктурированные. Цель заключается в создании платформы, способной получать данные из широкого круга источников. На втором уровне происходят очистка данных и выявление связей между ними. Третий уровень образует аналитика. Четвертый — это уровень пользователей. Здесь ведется электронная коммерция, осуществляются сложная аналитика и визуализация данных.
Но неравномерность потока данных (высокий спрос накануне мероприятия и полное отсутствие после него), необходимость проведения платежей и выявления мошенничества, требование выдавать билеты в различных форматах — все это является сложными задачами при работе с корпоративной базой данных, и такие задачи встречаются повсеместно.
На ближайшие годы целью корпоративного архитектора данных будет гибридная СУБД. Платформа, способная обрабатывать самые различные структурированные и неструктурированные данные и выдавать информацию в понятном для потребителей и приемлемом для бизнес-менеджеров виде, станет фундаментом успешных компаний.