Сегодня компании пытаются сделать со своими данными больше, чем когда-либо прежде. Однако существующие архитектуры данных не всегда построены таким образом, чтобы способствовать достижению этой цели. Согласно новому отчету Dresner Advisory Services «Active Data Architecture Report», зарождающаяся модель, получившая название «активная архитектура данных» (ADA), даст компаниям свободу для реализации их мечты о больших данных, сообщает портал BigDATAwire.
По словам Ховарда Дреснера, президента аналитической компании Dresner Advisory Services, активная архитектура данных — это программно-определяемый уровень абстракции, который отделяет физическое хранилище данных от их использования. Эта концепция заимствует некоторые идеи сетки данных (data mesh) и ткани данных (data fabric), особенно фокус на создании продуктов данных. Однако она выходит за рамки того, что большинство людей ассоциирует с сеткой или тканью данных.
ADA нельзя купить, так же как нельзя купить полностью сформированную ткань данных или готовую сетку данных, отмечает Дреснер. Вместо этого организация строит свою собственную ADA, используя существующие компоненты из устоявшихся дисциплин, связанных с данными, включая интеграцию данных, инжиниринг проектирование данных, управление данными, управление метаданными, а также инфраструктуру операционных и аналитических данных.
«ADA включает в себя различные возможности управления данными, в том числе виртуализированный и распределенный доступ к данным, управление данными и безопасность, — пишут авторы отчета. — Она помогает поднять статус и важность данных до уровня „продукта“, отделяя управление, контроль и использование данных от конкретных технических систем, в которых они могут быть размещены. По сути, ADA обеспечивает (помимо прочего) уровень абстракции, позволяющий управлять данными и применять их независимым от приложений образом».
Важным компонентом ADA является каталог данных, использующий метаданные, чтобы помочь организации классифицировать и находить наборы данных. Так же как и семантический слой, который помогает перевести бизнес-определения метрик данных, понятных людям, в технические определения данных, которые диктуют способы обработки и хранения данных.
Dresner Advisory Services провела опрос предприятий по всему миру и пришла к выводу, что осведомленность и интерес к концепции ADA растет. Компания обнаружила, что 28% респондентов считают ADA «критически важной», что на 2% больше, чем в 2024 г. Кроме того, лишь менее 5% респондентов заявили, что ADA не важна, что на 2% меньше, чем в
Чаще эту концепцию считают важной крупные компании в западных странах, говорится в исследовании. Также выяснилось, что работники, занятые в сфере операций, продаж и маркетинга, BI и ИТ, чаще считают ее важной по сравнению с теми, кто работает в области науки о данных, финансов, стратегического планирования или высшего руководства.
Исследователи также обнаружили корреляцию между группами, которые уже добились успеха в своих BI-проектах, и теми, кто положительно относится к ADA. В частности, 62% организаций, оценивших свои BI-проекты как «чрезвычайно успешные», считают ADA критически важной, и ни один из этих респондентов не считает ее неважной.
«Создание ADA для доступа к данным, их объединения и подготовки говорит о степени зрелости и искушенности в использовании данных в качестве стратегического актива, — пишут авторы отчета. — Поэтому неудивительно, что респонденты, оценивающие свои BI-инициативы как успешные, придают гораздо большее относительное значение концепции ADA по сравнению с менее успешными организациями».
Интеграция данных — один из основных компонентов ADA, однако пользователи могут использовать различные способы интеграции данных. По словам Дреснера, большинство специалистов по ADA используют инструменты интеграции пакетных и массовых данных, такие как предложения ETL/ELT. Меньшее количество организаций используют в качестве основного метода интеграции данных виртуализацию данных, потоковую передачу событий в реальном времени (например, Apache Kafka) или перемещение данных на основе сообщений (например, RabbitMQ).
Каталоги данных и управление метаданными — важные аспекты ADA. «Разнообразная, распределенная, связанная и динамичная природа ADA требует возможностей для сбора, понимания и использования метаданных, описывающих соответствующие источники данных, модели, метрики, правила управления и многое другое», — пишут авторы отчета.
Исследование показало, что 84% респондентов считают семантические слои критически важными, очень важными или важными для ADA; 15% сказали, что семантические слои не являются критическими или важными.
«Возможность создания семантического слоя, который взаимодействует с различными типами источников данных, совместим с другими инструментами, обеспечивает согласованное представление данных и поддерживает соответствующие уровни безопасности и контроля, становится все более важной для многих организаций», — утверждают исследователи.
Сбор метаданных — самая востребованная функция в ADA, за ней следуют анализ влияния, визуализация траектории, моделирование интегрированных представлений данных, моделирование всех компонентов ADA и возможности оптимизации.
Автоматизированное управление — еще один важнейший фактор успеха ADA. По данным Дреснера, при построении ADA организации отдают предпочтение определенным подгруппам управления данными, за которыми следуют открытые источники, безопасность, конфиденциальность, качество данных и открытые форматы.
Исследование также показало, что организации уделяют первостепенное внимание масштабируемости и производительности своих ADA. «Высокий уровень важности персистентности, кэширования и оптимизации распределенных запросов, по-видимому, согласуется с растущим спросом на виртуализацию данных, которая требует этих возможностей для достижения надлежащей производительности», — пишут авторы отчета.
Адаптивность к изменениям — неотъемлемый аспект ADA, поэтому неудивительно, что организации отдают предпочтение методам динамической оптимизации, которые позволяют им корректировать размещение данных или выбирать различные методы интеграции, отмечает Дреснер. Организациям необходимо контролировать свои среды, поэтому мониторинг ключевых показателей эффективности (KPI) тоже является трендом среди специалистов по ADA. Возможность управления ADA через API также рассматривается как преимущество.
Активные архитектуры данных не покупаются, а создаются, и организации получают их компоненты из самых разных мест. Согласно отчету, поставщики инструментов интеграции данных занимают первое место по популярности, на что указали более 50% респондентов, за ними следуют поставщики инструментов BI и аналитики; поставщики каталогов данных и управления метаданными; поставщики, ориентированные на ткань или сетку данных; продавцы баз данных и уровней хранения данных; провайдеры облачной инфраструктуры и поставщики систем управления данными.
Тенденция развертывания AFA набирает обороты и в разработке ПО, поскольку сторонние поставщики обращаются к этому архитектурному шаблону за подсказками о том, как разработать свои продукты, чтобы добиться максимального эффекта. Исследование показало, что 55% поставщиков ПО считают ADA критически важной, 21% оценили ее как очень важную и еще 14% — как важную. 4% заявили, что она важна в некоторой степени, а 9% указали, что она для них не важна.
В рейтинг ADA аналитики включили 20 поставщиков. Dremio и Denodo заняли первое место, Pentaho, Palantir и Informatica — третье, Fivetran, Cube и Astera — четвертое, а Altair — пятое место.
Интересно, что более 95% опрошенных поставщиков заявили, что они могут предоставить всю функциональность, необходимую для построения ADA с помощью одного продукта. «Это сомнительно, учитывая тот факт, что многие поставщики предлагают множество разрозненных продуктов по таким категориям функций, как интеграция данных, управление данными и метаданные/каталог данных, — говорит Дреснер. — И конечные пользователи, и конкурирующие организации должны знать, что многие поставщики предлагают лишь узкое подмножество общей функциональности, необходимой для настоящей ADA».
Он также отмечает, что учитывая наличии широкой путаницы в понимании того, что представляют собой ткань данных или сетка данных, очевидно, что необходимо дополнительное образование, чтобы просветить рынок о том, что подразумевает активная архитектура данных.