Халид Марбу, старший стратег по продуктам Infor OS Data Fabric, и Майк Калиновски, директор по управлению продуктами Infor OS Data Fabric, обозначили на портале Datanami пять ключевых тенденций, которые будут определять эволюцию управления корпоративными данными в ближайшие пять лет.
Еще менее десяти лет назад корпоративный рынок рассматривал решения для работы с данными — в основном, хранилища данных — как обязательный элемент архитектуры своих ИТ-решений. Монолит, предназначенный для снижения затрат и воздействия производительности на основные бизнес-операции при удовлетворении жестких потребностей в отчетности и аналитике. Чаще всего эти решения рассматривались как зависимые центры затрат, требующие значительных бюджетов на обслуживание при ограниченной отдаче от инноваций. Это была просто цена ведения бизнеса.
С тех пор концепции неограниченных вычислений, эластичной инфраструктуры и управляемых услуг в облаке заставили пересмотреть взгляд на ценность данных. Этот новый подход, пропитанный ценностью данных в качестве источника получения дохода, занимает видное место в пяти- и десятилетних стратегиях большинства руководителей компаний, при этом данные теперь получают не только внутреннюю ценность.
Этот поворот к «данным как стратегии» произошел отнюдь не в вакууме; коммерциализация таких вычислительных областей, как искусственный интеллект, машинное обучение, IIoT, а также категорий продуктов, основанных на графах, привело к тому, что архитектуры данных стали развиваться, а темпы этих инноваций стали определять прогресс на тех же продуктовых рынках.
Это привело к кембрийскому взрыву новых технологий и стартапов, новых вертикалей решений и заново изобретенных архитектур обработки данных, в результате чего только в 2021 г. в эту сферу было инвестировано более 5 млрд. долл. — большая часть этих средств была направлена на аналитику и хранение данных.
Ниже мы обозначили пять ключевых тенденций, которые, по нашему мнению, станут основой эволюции управления корпоративными данными в ближайшие пять лет.
1. Повсеместная облачная инфраструктура данных
Нет лучшей темы для начала рассказа, чем инфраструктура, которая обеспечила значительную часть роста в этой области. Переход от унаследованных онпремисных систем к облаку, и особенно к публичному облаку, позволил высвободить ресурсы, предназначенные для обслуживания, обеспечения надежности и доступности инфраструктуры, и расчистить игровое поле для инновационных практик. Новая заманчивая парадигма внедрения технологий с простой отправной точкой (low floor) и высоким потенциалом (high ceiling) будет набирать обороты, поскольку, по прогнозам Gartner, уже в 2022 г. объем расходов на публичные облачные сервисы достигнет 500 млрд. долл.
Благодаря пяти девяткам доступности (99,999%) и ошеломляющим одиннадцати девяткам долговечности (99,999999999%), достигнутым AWS (компания, занимающая треть рынка публичных облаков), можно тратить меньше времени и ресурсов на управление онпремисными системами. Это преимущество реализуется как в сокращении капитальных затрат на оборудование, так и в отсутствии необходимости содержания дорогостоящей армии человеческих ресурсов в виде специалистов, занимающихся сетевым взаимодействием, администрированием, управлением данными, безопасностью, надежностью, обслуживанием и т. д.
Как с точки зрения управления данными, так и с точки зрения их хранения, облачные платформы данных, построенные на новых и развивающихся архитектурах, таких как облачные хранилища, облачные озера данных и новые, но уже выглядящие знакомыми облачные озера-хранилища (lakehouses), обеспечивают производительные и легко масштабируемые решения.
С другой стороны, формированию здоровой и богатой экосистемы для решения задач управления корпоративными данными способствует изобилие неограниченно масштабируемых облачных вычислений, бессерверных облачных сервисов и готовых инструментов интеграции облачных решений.
2. Активное и расширенное управление метаданными
Данные, которые помогают описать ваши данные — метаданные, — представляют собой фундаментальный ключ к созданию рычагов воздействия на астрономические объемы сбора организациями данных. Стратегия управления метаданными предприятия (EMM), являясь основой каталогизации данных, сама собой напрашивается в качестве инструмента создания своевременных и эффективных стратегий индексирования для получения ответов на следующие общие вопросы:
- Какие данные я собираю/генерирую?
- Как они структурированы?
- Откуда они поступают и где хранятся?
- Где я могу найти нужные мне данные?
- Как мои данные связаны с моими бизнес-процессами?
- Как связаны мои данные?
- Где и кем используются мои данные?
Базовой реализацией EMM является операционный каталог данных, который представляет собой индексированную коллекцию источников данных предприятия. Шагом вперед является концепция расширенных каталогов данных, придуманная Gartner и определяемая как слой автоматизации на основе машинного обучения поверх традиционного каталога данных.
Автоматизация в расширенных каталогах данных позволяет оптимизировать обнаружение данных, подключение, обогащение метаданных, организацию и управление. Развитие этой автоматизированной архитектуры, активное управление метаданными (AMM), является скачком в том же направлении, позволяющим проводить непрерывный анализ различных аспектов метаданных предприятия для определения, как формулирует Gartner, «согласования и исключений между данными в соответствии с проектом и опытом эксплуатации».
3. Озера-хранилища данных — лучшее из обеих парадигм
Озеро данных помогло решить проблему таких частей головоломки управления данными, как хранение и гибкость, однако в озере предприятия сталкиваются с необходимостью решения проблемы внешней ETL-обработки для получения достоверных BI-инсайтов и отчетности, с чем обычно можно справиться «из коробки» в случае с хранилищем данных. Чтобы упростить этот процесс и помочь сохранить инфраструктуру данных единой и самодостаточной, возникла концепция озер-хранилищ данных. Как следует из названия, это гибридное решение для управления данными, объединяющее преимущества как озер данных, так и хранилищ данных в единую платформу, что позволяет снизить сложность и объем обслуживания, а также получить экономию от масштаба. Первое задокументированное упоминание термина «Data Lakehouse» относится к 2017 г., когда он был впервые использован Jellyvision Lab, клиентом Snowflake, для описания ее платформы.
Подобно озерам данных, смешанные структурированные данные могут попадать в озера-хранилища, при этом отличительным аспектом является возможность добавления слоя хранилища поверх озера. Это позволяет использовать жесткость и организованную структуру хранилища для традиционных нужд отчетности, сохраняя при этом гибкую и универсальную архитектуру озера для более широкого спектра других приложений.
4. Управление качеством данных через наблюдаемость
По мере того как инфраструктура технических данных продолжает коммодитизироваться, современная система производства данных становится все более сложной с множеством потенциальных точек проверки (или отказа). Следовательно, получить ответ на казалось бы простой вопрос «что пошло не так?» или в превентивном смысле «как сделать так, чтобы ничего не пошло не так?» в конвейере данных становится все сложнее.
К счастью, колесо управления качеством в таких сложных условиях не пришлось изобретать заново. Уроки, извлеченные из применения бережливых и гибких методологий разработки ПО, которые привели к революции DevOps, продолжающей развиваться и совершенствоваться, теперь применяются и в управлении корпоративными данными. И одним из ключевых столпов обеспечения полного и непрерывного управления качеством данных является их наблюдаемость.
Наблюдаемость сама по себе не является новой концепцией; впервые она была введена в 1960 г. Рудольфом Э. Калманом применительно к линейным динамическим системам. В контексте теории управления наблюдаемость была определена как степень внутреннего состояния системы, определенная на основе ее выходов. Проще говоря, она дает ответ на простой вопрос: «Что мы можем сказать о работе системы на основе ее выходных данных?».
В контексте управления данными общепринятое определение наблюдаемости данных подразумевает способность понимать здоровье и состояние данных в вашей системе, что позволяет обеспечить качество данных, мониторинг и контроль жизненного цикла данных. Подобно тому как в программной инженерии есть столпы наблюдаемости ПО (журналы, метрики и трассировки), наблюдаемость данных, согласно теории, основывается на пяти следующих столпах: свежесть, распределение, объем, схема и происхождение.
5. Data Fabric как мультимодальная структура данных
Очевидно, что централизованное монолитное решение по управлению данными больше не подходит для современных предприятий. Мириады производителей и потребителей данных, а также приложений и сервисов между ними требуют современной и всеобъемлющей структуры управления данными, способной выдержать рост их сложности и масштаба.
Ткань данных (Data Fabric) закладывает основу для архитектуры мультимодальной платформы управления данными, которая повышает уровень проектирования и практики управления данными. В основе ткани данных лежат три ключевых принципа:
- Когерентность: обеспечение того, что архитектура управления данными предприятия курируется и оркестрируется таким образом, чтобы разрушить организационную и техническую разрозненность и объединить управление данными на единой платформе.
- Композитность: поддержка гибкости, масштабируемости и расширяемости компонентов.
- Универсальность: на уровне приложений, а также пользователей и интерфейсов.
Следует отметить, что приведенный выше обзор новых тенденций в области управления корпоративными данными относится в первую очередь к техническим и архитектурным аспектам. Но, как мы исторически наблюдали в других сферах и отраслях, взрывной рост технических возможностей — это только одна часть реализации бизнес-потенциала. Устойчивый рост и внедрение этих тенденций в корпоративном пространстве зависит от принятия и реализации правильных стратегий управления организационными изменениями и наличия необходимых технических и организационных ресурсов для их стимулирования и поддержки.