Ни для кого не секрет, что сегодня данные сложнее, чем когда-либо, и они продолжают расти немыслимыми темпами — по прогнозам, к 2025 г. глобальный объем данных вырастет до более чем 180 Зб. Поскольку предприятия пытаются не отставать от этого взрыва, а также от меняющихся рыночных условий, им крайне важно иметь легкий доступ к данным, которым они могут доверять для анализа, пишет на портале Datanami Джей Милитшер, руководитель отдела данных компании Collibra.
Конечно, решения по управлению помогают предприятиям обрабатывать и хранить эти данные, но увеличение объема и сложности создает трудности для ИТ-команд и отделов данных, на которые возложена непосильная ответственность за управление постоянно растущими массивами данных.
Мы находимся в точке перегиба в управлении корпоративными данными. Организации стремятся устранить неэффективность и узкие места в своих процессах обработки данных, и модель сетки данных (data mesh) предлагает гибкую основу, которая поможет им стать более конкурентоспособными.
Современный ландшафт данных
Многие организации используют традиционные хранилища данных и BI-платформы, но проблема централизованных платформ заключается в том, что они монолитны по своей природе и требуют собственной команды менеджеров и администраторов для управления ими.
Постоянная выгрузка данных в централизованные хранилища означает, что кто-то должен взять на себя обременительную роль по управлению, курированию и доставке этих данных в разные команды, что истощает ресурсы этих команд и создает потенциал для возникновения узких мест. Крупные предприятия также часто имеют огромные объемы хранящихся в локальных хранилищах данных, перенос которых в облако может занять непозволительно много времени и финансовых ресурсов.
Хотя эти системы десятилетиями были неотъемлемой частью повседневных решений для бизнес-анализа, их преимущества сегодня нивелируются ростом объема данных и их растущей сложностью.
Основные принципы и преимущества сетки данных
Одним из решений для преодоления этих проблем является применение технологии data mesh — разработанного Жамаком Дехгани подхода, который переносит процессы обработки данных с центральной платформы на современную распределенную архитектуру, где организации могут действительно объединить данные из разрозненных систем и источников.
Сетка данных — это метод, ориентированный на людей и процессы, в основе которого лежат четыре руководящих принципа: владение на основе домена (предметной области), данные как продукт, инфраструктура самообслуживания для данных и федеративное управление вычислениями. Над каждым из этих принципов можно работать по отдельности, когда компании начинают переход к системе data mesh, но каждый из них является неотъемлемой частью ее потенциала.
Владение на основе домена
Владение на основе домена — это ключевое отличие архитектуры сетки данных от традиционного, монолитного метода сбора данных. В модели data mesh данные секционируются и контролируются экспертами по данным в конкретной области бизнеса, например, в отделе кадров или отделе маркетинга. Когда данные перекачиваются в озеро данных или хранилище, эксперты часто теряют с ними связь, что делает эти данные менее дешифруемыми и приводит к засорению всей системы.
Однако при использовании сетки данных эксперты контролируют данные и могут использовать свой опыт для очистки, обогащения и перевода данных, поддерживая их качество, а также оптимизируя общий процесс очистки данных и создавая более бесшовный процесс для самой организации. Эксперты по данным понимают уникальное назначение данных и то, как определенный набор данных может удовлетворить потребности в конкретной области, а затем и потребности организации в целом. Благодаря сетке данных каждый отдел может обслуживать свои собственные данные и в то же время пользоваться преимуществами всеобъемлющего управления и общекорпоративной инфраструктуры.
Данные как продукт
Мыслительное представление данных как продукта, как и владение, ориентированное на домен, представляет собой аналогичный подход к пониманию данных на более глубоком уровне. Благодаря тому, что за данные отвечают предметные специалисты, data mesh рассматривает данные с точки зрения продукта, обеспечивая их доступность, управление и потребности организации, подобно тому, как продукт оценивается по его эффективности и влиянию на организацию. Благодаря подходу, основанному на сетке данных, данные получают общее видение и дорожную карту, а также план обслуживания. Постоянно измеряя эффективность данных, эта модель гарантирует, что организации постоянно используют свои данные и избегают «болота данных» — больших объемов данных, которые остаются нетронутыми и со временем становятся все более устаревшими.
Инфраструктура самообслуживания для данных
Чтобы предотвратить перегруженность каждого бизнес-домена задачей управления своими данными, data mesh использует инфраструктуру самообслуживания для продвижения здоровых систем данных по всей организации, что стало возможным благодаря облаку.
Модель самообслуживания позволяет беспрепятственно обмениваться данными в рамках всей организации, что дает бизнесу возможность стимулировать инновации благодаря общему пониманию данных. Модель абстрагирует сложность данных для владельцев доменов, одновременно снижая трение для потребителей данных, способствуя более глубокому пониманию данных на всех уровнях и создавая больше возможностей для использования данных.
Федеративное управление вычислениями
Эффективная работа с данными должна иметь в своей основе управление данными. Модель сетки данных использует федеративный подход к управлению данными, то есть создает среду, которая способствует как полномочиям в масштабах всего предприятия, так и потребностям конкретного домена. Для достижения такого уровня автоматизации и интеграции всей инфраструктуры данных ключевое значение имеют политика, классификация, безопасность и качество.
Принятие модели сетки данных
Для организаций, которые в настоящее время сталкиваются со сложным ландшафтом данных, идея перехода к модели сетки данных может показаться пугающей. Однако прелесть этой модели заключается в том, что ее можно внедрять постепенно, в зависимости от готовности организации.
Как говорится, «Рим не в один день строился» — и эти изменения не должны происходить все сразу. Главное преимущество модели сетки данных заключается в том, что ее можно внедрять от домена к домену, от принципа к принципу. Организации могут начать с одной области бизнеса и перейти к другим, изучив, что работает хорошо, а какие проблемы требуют решения.
Главное — понять, что сетка данных — это культурный сдвиг. Data mesh дает возможность экспертам предметной области взять на себя ответственность за свои данные, а люди и процессные компоненты являются наиболее важными составляющими, которые необходимо организовать правильно. Лидеры в области данных должны взять на себя роль помощников своим командам в принятии и продвижении культурных изменений. После внедрения сетка данных позволит организациям лучше управлять своими данными и лучше получать к ним доступ, а также принимать более быстрые и качественные бизнес-решения.