Концепция ткани данных (data fabric) появилась в 2015 г. в компании NetApp. Позднее, через три года, по мере расширения ее реализации, она была переосмыслена. По мере того как остальные представители отрасли хранения данных продвигали свои собственные решения на базе ткани данных, исходная концепция начала терять свой первоначальный смысл, утверждает портал IT Business Edge.
Хотя новые концепции нередко меняются в процессе своего становления со временем, отсутствие ясности может привести к путанице для тех, кто нуждается в этой технологии. Поэтому имеет смысл обсудить, как развивается ткань данных — и как она может помочь распределенным предприятиям лучше управлять своими распределенными операциями с данными.
Что такое ткань данных
В своем выступлении в 2018 г. главный архитектор ткани данных компании NetApp Эйки Храфнссон описал концепцию Data Fabric 1.0 как «возможность перемещать данные в любое место, будь то локальная сеть, корпоративный дата-центр или публичное облако».
В
Это означало реальное изменение в плане упрощения передачи данных между средами, что-то вроде сети хранения для эпохи Big Data и облачных вычислений. Однако спустя годы подобная производительность стала общепринятой, что привело к изменению в развитии data fabric и того, для чего она может быть использована.
Согласно Gartner, ткань данных — это «... концепция дизайна, которая служит интегрированным слоем (тканью) данных и связующих процессов. Ткань данных использует непрерывную аналитику существующих, обнаруживаемых и ссылочных метаданных для поддержки разработки, развертывания и использования интегрированных и многократно используемых данных во всех средах, включая гибридные и мультиоблачные платформы».
Для сравнения, IBM определяет ткань данных как «... архитектурный подход к упрощению доступа к данным в организации для облегчения самообслуживания потребления данных. Эта архитектура не зависит от среды, процессов, использования и географии данных, интегрируя при этом сквозные возможности управления данными. Ткань данных автоматизирует обнаружение, управление и потребление данных, позволяя предприятиям использовать данные для максимизации своей цепочки создания ценности».
Оба определения заимствованы из первоначальной концепции, но представление о том, что такое ткань данных, становится более сложным, чтобы идти в ногу с современными тенденциями в области данных.
Data Fabric 2.0
NetApp пересмотрела свое представление о ткани данных через несколько лет после ее дебюта, переформулировав концепцию следующим образом: «... Data Fabric упрощает интеграцию и оркестровку данных для приложений и аналитики в облаках, между облаками и онпремис для ускорения цифровой трансформации».
Другими словами, сфера применения и функциональность расширились, чтобы лучше интегрировать существующие корпоративные приложения с источниками данных, делая программы агностичными по отношению к исходным средам.
NetApp утверждает, что эта архитектура несет в себе множество преимуществ:
- позволяет лучше противостоять вендорлоку, освобождая данные и предлагая свободу выбора между облачными провайдерами или онпремис, переключаясь в любое удобное время;
- расширяет возможности управления данными, повышает мобильность за счет разрушения изолированности, облегчает резервное копирование и восстановление данных в облаке, а также может улучшить управление данными;
- улучшает обнаружение данных, предоставляя полный обзор с помощью своего набора инструментов визуализации.
Другие компании, такие как Talend, имеют свои собственные аналитические инструменты для работы с тканью данных, многие из которых расширяют ее для внутренних и внешних потребителей и контрибуторов с помощью API.
Проблемы ткани данных
Большинство компаний сегодня хранит свои данные в разных местах и в разных форматах, поэтому ткань данных не всегда может иметь доступ ко всем данным. Более того, распределенный характер данных часто приводит к низкому качеству данных, что может исказить анализ данных при их агрегировании.
Согласно исследованию, опубликованному в Harvard Business Review, всего 3% данных компаний соответствуют стандартам качества данных, установленным исследователями. Также выяснилось, что почти половина всех вновь создаваемых записей содержит критическую ошибку.
По мнению Talend, создание единой среды данных может смягчить эти проблемы контроля качества, предоставляя ИТ-отделам больший контроль и гибкость в отношении конечного продукта. Соответствующие инструменты позволяют лучше управлять данными, более эффективно очищать их, а также обеспечивать соответствие и целостность данных благодаря отслеживанию их происхождения.
Ткань данных и управление данными
Такие инструменты, как ткань данных, могут облегчить работу по контролю качества данных. Но если они используются неправильно, то компания может столкнуться с тем, что придется тратить больше средств на устранение проблем с данными или их анализом.
То, как мы взаимодействуем с нашими данными, — это только половина общей картины. Вторая половина — это то, как мы их создаем. Данные, как правило, создаются на лету и служат ограниченным, чувствительным ко времени целям. Ткань данных может помочь ИТ-отделу быстрее справиться с плохими или устаревшими данными, но в идеале мы также должны устранять эти проблемы на начальном этапе, когда данные создаются.