Предприятия переполнены данными — и они хотят извлечь из них выгоду. Их цель — монетизировать все данные, поступающие как с интеллектуальных устройств, так и из других источников, но для этого сначала необходимо пересмотреть традиционные методы управления данными, пишет на портале The New Stack Скотт Гнау, вице-президент по платформам данных компании InterSystems.
Мы окружены данными, но они могут быть разрозненными, что затрудняет их использование. Между тем, ожидания нашего общества, ориентированного на данные, в отношении качества опыта чрезвычайно высоки, что делает данные и полученные из них инсайты одним из самых важных активов бизнеса. К счастью, когда дело доходит до построения архитектуры данных, отвечающей текущим и будущим потребностям бизнеса, есть множество вариантов.
Смена парадигмы
За последний год «ткань данных» (data fabric) и «сетка данных» (data mesh) стали все больше обсуждаться как перспективные парадигмы, способные помочь организациям в работе с данными. Понятие «единого источника истины», ставшее известным благодаря традиционным монолитным подходам к управлению данными, становится все менее практичным, поскольку источники данных становятся все более разрозненными и облачными.
По сути, создание озера данных или перенос хранилища данных в облако — это все равно что установка блестящего нового салона в автомобиль из
Подход на основе сетки данных призван устранить эти недостатки, предлагая распределенную обработку и управление в точке сбора данных. Ткань данных представляет более интегрированную парадигму, при которой обработка переносится в место хранения данных, а распределенные, критически важные хранилища данных целенаправленно объединяются и интегрируются с помощью машинного обучения и автоматизации.
Эти концепции имеют фундаментальные различия, но у них также много общего, особенно в их намерениях. Хотя важно знать эти различия, также важно понимать, как они пересекаются. Однако, чтобы разобраться, как эти понятия сочетаются в гибридной модели, сначала давайте рассмотрим определения каждого из них.
Что такое Data Fabric
Ткань данных — это концепция дизайна и эталонная архитектура, направленные на решение проблемы сложности управления данными и минимизацию сбоев у потребителей данных. Представьте ее как паутину, простирающуюся через большую сеть существующих данных и технологических активов. Она соединяет разрозненные данные и приложения, в том числе локальные, от партнеров и в публичном облаке. Ткань данных предоставляет возможности, необходимые для обнаружения, подключения, интеграции, преобразования, анализа, управления, использования и хранения активов данных, что позволяет предприятию решать множество бизнес-задач быстрее и с меньшей сложностью, чем предыдущие подходы, такие как озера данных. Корпоративная ткань данных объединяет несколько технологий управления данными, включая управление базами данных, интеграцию данных, преобразование данных, конвейеризацию, управление API и т. д.
Интеллектуальная ткань данных делает еще один шаг вперед и включает в себя широкий спектр аналитических возможностей, включая исследование данных, бизнес-аналитику, обработку естественного языка и машинное обучение. Это позволяет организациям получать новые инсайты и создавать интеллектуальные прескриптивные сервисы и приложения.
Что такое Data Mesh
Сетка данных ориентирована на организационные изменения, направленные на то, чтобы предоставлением продуктов данных владели доменные (по конкретным направлениям бизнеса) команды, которые находятся ближе к своим данным и, следовательно, лучше их понимают. Она поддерживается архитектурой, использующей доменнно-ориентированный дизайн самообслуживания, позволяющий потребителям данных их обнаруживать, понимать, доверять и использовать данные и продукты данных для обоснования решений и инициатив.
Подобно тому, как инженерные команды внедряют микросервисные архитектуры взамен монолитных приложений, команды по работе с данными рассматривают сетку данных как возможность внедрения микросервисов данных, которые предоставляют бизнес-контекстные услуги вместо монолитных платформ данных.
Поиск золотой середины
Хотя большая часть разговоров о ткани данных и сетке данных посвящена пониманию принципов каждой из них с целью определить, какой подход или архитектура лучше всего подходят для нужд бизнеса, реальная ценность этих концепций не коренится в решении «либо/либо».
При оценке жизнеспособности этих концепций их нужно рассматривать как взаимодополняющие. Подобно тому, как наша современная микросервисная среда позволяет выбирать при внедрении технологий «лучшие в своем классе», вопрос для организаций должен заключаться не в том, какая концепция — ткани данных или сетки данных — является наиболее подходящей, а в том, «каков сценарий использования?».
Локальная обработка и управление распределенными данными (т. е. с помощью сетки данных) позволяет отделам продаж и маркетинга формировать
При этом вам также необходима обработка и управление распределенными данными предприятия (т. е. с помощью ткани данных) для создания взаимосвязей, необходимых для представления всех ваших активов данных. Существует распространенное заблуждение, что ткань данных — это исключительно централизованная обработка. На самом деле ткань данных поддерживает распределенную обработку там, где это имеет смысл, например, в случае отслеживания данных в информационно-развлекательной системе вашего автомобиля, а также обеспечивает связь, которая позволяет вернуться к источнику и соединить точки распределенной обработкой.
В конечном счете, речь идет о рационализации и упрощении архитектуры, чтобы вы могли сосредоточиться на продуктивном использовании данных. Слишком многие все еще рассматривают инфраструктуру как центр затрат, но эти новые парадигмы открывают дверь к рассмотрению инфраструктуры данных как центра прибыли.