В статье обсуждается новая гибридная архитектура управления данными, которая упрочит позиции традиционной аналитики и позволит справиться с расширением «вселенной данных».
Корпоративные хранилища данных: 10 лет под угрозой исчезновения
Реляционным хранилищам данных (ХД) более трех десятков лет. За последние 10 лет закат традиционной аналитики на их основе предрекали как минимум два раза. Сначала — при появлении облачных ХД, затем — озер данных.
Построение хранилища данных на территории заказчика («on premises») — инвестиционно-емкий проект, который может занимать до одного года и более. Облачные ХД были призваны удешевить стоимость развертывания хранилища, а также справиться с постоянно растущими объемами исходных данных. Но повсеместного перехода с традиционных ХД на облачные не произошло. По результатам последнего опроса IDC, 47% предприятий в мире используют централизованную архитектуру облачного хранилища. Но через два года этот показатель сократится до 22%. Основная причина в том, что возможности передачи данных растут медленнее, чем емкости хранилищ.
Что касается высокопроизводительных программно-аппаратных комплексов, используемых при построении ХД, таких как Oracle Exadata, то в России уже сегодня наблюдается опережающий спрос на «on-premises» решения.
После облачных ХД следующей «угрозой» для традиционных хранилищ стали озера данных. По оценке IDC, с 2010 по 2020 гг. объем мировой «цифровой вселенной» вырос в 32 раза и достиг 64 Зб. Аналитика больших данных превратилась в быстрорастущий ИТ-сегмент, а озера данных — в ключевой элемент инфраструктуры Big Data. Появились предположения, что озера могут отвоевать долю рынка у реляционных баз данных и даже «поглотить» традиционные ХД. Но сегодня каждое из них — хранилище и озеро — по-прежнему обслуживает собственную аналитическую нишу.
Одно из последних предсказаний о закате реляционных ХД связано с новой гибридной архитектурой — data lakehouse. Предполагается, что она придет на смену хранилищам и озерам данных, объединив эта два инструмента подготовки данных для аналитики. Термин data lakehouse условно можно перевести как «хранилище и озеро данных».
Ознаменует ли появление data lakehouse конец жизненного цикла ХД, или это просто новая организация работы с данными? Попробуем разобраться.
Почему появилась идея data lakehouse
Традиционные банковские ХД обрабатывают структурированные данные и обслуживают традиционную аналитику — выпуск различных видов отчетности и подготовку данных для аналитических задач, в том числе для прогнозирования на основе накопленных данных. Архитектура хранилищ оптимизирована для быстрого извлечения данных и одновременной работы большого количества пользователей.
В отличие от хранилищ, озера данных ориентированы на обработку неструктурированных и структурированных данных (Big Data), первые могут составлять до 80%. Данные могут извлекаться из потоков — социальных сетей, электронной коммерции, датчиков и Интернета вещей (IoT). Схема озера данных определяется «по чтению» (on read), а хранилища — «по записи» (on write). Наконец, озера не предусматривают высокую производительность обработки запросов и поддержку многопользовательского режима работы. Собранные в них данные — основа для применения методов машинного обучения и различных подходов науки о данных (Data Science).
Как правило, хранилища и озера работают изолированно друг друга. Появление концепции гибридной архитектуры — это попытка объединить данные, собранные в хранилища и озера, и аналитические выводы, полученные на их основе.
Гибридная архитектура может не только расширить возможности хранилищ в части аналитики неструктурированных данных, но и устранить ограничения озер в обеспечении качества данных. Ряд экспертов также считает, что вычислительные возможности Open Source-платформ для озер данных начинают не справляться с нагрузкой, что подрывает идею об их экономичности.
Согласно исследованию TDWI, сегодня озера часто выполняют вспомогательную роль в подготовке аналитики. Только треть опрошенных компаний (37,3%) использует озера данных по прямому назначению — для продвинутой и МО-аналитики. Остальные — как область для временного хранения копии исходных данных перед их ETL-обработкой (37,3% опрошенных) или как расширение хранилища данных (36,7% опрошенных).
Data lakehouse: когда ждать пришествия варяга
Гибридная архитектура пока находится на уровне концепции, а соответствующая терминология только формируется. Например, большинство участников исследования TDWI предпочитают использовать термины, связанные с архитектурой. 43% называют ее корпоративной архитектурой данных (enterprise data architecture), 36% — гибридной архитектурой данных (hybrid data architecture), 35% — современной архитектурой хранилища данных (modern data warehouse architecture). Сами эксперты TDWI склоняются к термину мультиплатформенная архитектура данных (multiplatform data architecture), а аналитики Gartner используют data lakehouse.
По мнению последних, data lakehouse является развитием концепции логического хранилища данных, которое Gartner представила около 15 лет назад. Аналитики описывают ее как конвергентную инфраструктурную среду, в которой обеспечиваются все шаги по обработке и преобразованию данных: от сырых данных до информации, готовой для «употребления». Технология data lakehouse только прорабатывается, и пройдет пять-десять лет, пока она выйдет на так называемое плато продуктивности на кривой хайп-технологий в области управления данными.
Чем привлекательна гибридная архитектура
Основная выгода, которую принесет data lakehouse — извлечение еще большей ценности из данных. Об этом заявили 64% участников упомянутого опроса TDWI.
Переход к гибридной архитектуре позволяет унифицировать источники данных — и хранилища, и озера — в масштабе всей организации и обеспечить получение непротиворечивой отчетности и аналитики для разных бизнес-вертикалей. Так считают 53% участников опроса TDWI.
Сегодня корпоративные ХД могут ограниченно использовать MО-методы. По мнению 49% респондентов TDWI, применение data lakehouse дает возможность расшить «узкие места» традиционной аналитики. Если хранилища и озера будут унифицированы, а данные в озерах — структурированы, и их можно будет обрабатывать с помощью запросов, гибридная архитектура может стать основой для аналитической обработки традиционных и новых типов данных.
Очевидно, что говорить о закате технологии реляционных хранилищ данных по-прежнему более чем преждевременно. Если новая гибридная архитектура найдет свое промышленное воплощение, что неизбежно с учетом роста объемов и разнообразия данных, то она упрочит позиции корпоративных ХД в ИТ-ландшафте банка. Они обеспечат традиционную непротиворечивость и надежность отчетных данных, а в связке в другими аналитическими технологиями позволят извлекать из них еще большую ценность.