По мере того как разрозненность данных продолжает увеличиваться, а трудности управления данными усугубляются, начинает складываться единое мнение о том, что отрасли необходим стандартный, повторяемый и эффективный способ управления всеми этими данными. Опрошенные порталом Datanami эксперты обсуждают вопрос, где появится этот слой — в верхней части стека, в нижней или где-то между ними.
С первых дней существования вакуумных трубок и перфокарт интеграция была бельмом на глазу корпоративных ИТ. Будь то интеграция приложений или приведение форматов данных в соответствие, успех интеграции неизменно сводится к часам ручного труда.
Во многом вечный разрыв в интеграции объясняется естественной эволюцией ИТ. Творческие люди всегда на шаг впереди. Они создают новаторские приложения на заказ и используют данные новыми и творческими способами для решения проблем и получения конкурентных преимуществ. Обеспечение того, чтобы все новое хорошо сочеталось со старым, не способствует решению задач по переосмыслению возможного, нарушению статус-кво и зарабатыванию миллиарда баксов. На самом деле, она диаметрально противоположна этому, по определению.
Так что же делать современному предприятию? Традиционный путь — платить системным интеграторам миллионы долларов, чтобы они вручную сшивали одноразовые системы вместе. Так было, когда кастомизированные ERP-системы должны были взаимодействовать со кастомизированными CRM-системами, так происходит и сегодня, когда разработанные на заказ системы потоковых данных должны интегрироваться со созданными на заказ облачными хранилищами данных.
Люди на острие разработки всегда будут на шаг впереди тех, чья работа заключается в том, чтобы вставлять круглые колышки в квадратные отверстия. По мере того, как новшество становится все более широко распространенным, острые края стираются, и оно лучше сочетается со всем тем, что было до него. Применительно к большим данным, продвинутой аналитике и искусственному интеллекту мы сейчас находимся на том этапе, когда за последние 10 лет было сделано очень много, и теперь компании ищут способы заставить это работать со всем остальным, что у них есть.
Сегодня все большую популярность завоевывают два архитектурных паттерна — ткань данных (data fabrics) и сетка данных (data mesh), — которые способны встряхнуть этот статус-кво и обеспечить более повторяемую автоматизацию управления данными. Несмотря на некоторое сходство у них есть важные различия, которые, вероятно, повлияют на конечный успех каждого подхода.
Ткань данных
Ткань данных решает проблему управления данными путем логического объединения различных инструментов управления данными. Каталог данных, безопасность, управление (governance), качество, линейность, управление мастер-данными (MDM), а также продукты для извлечения, преобразования и загрузки (ETL/ELT) физически соединяются вместе на уровне метаданных, чтобы каждый инструмент знал, какие данные есть у других инструментов. Эта работа по интеграции выполняется либо разработчиком инструмента интеграции данных, либо системным интегратором.
По словам вице-президента и главного аналитика Forrester Ноэля Юханны, который сыграл важную роль в определении этой категории продуктов, компании получают реальную пользу от ткани данных и могут управлять своими данными с большей эффективностью и централизацией, даже если сами данные разбросаны по многим хранилищам. Сейчас мы находимся на пороге второй волны внедрения такни данных, которая будет характеризоваться более активным использованием графовых движков и графов знаний для управления информацией, говорит он.
Юханна отмечает, что в настоящее время около 65% развертываний ткани данных осуществляют системные интеграторы. Эта доля снизилось с примерно 80% всего несколько лет назад, и вскоре она упадет ниже 50%, говорит он. Такие поставщики ткани данных, как Informatica, IBM и Talend (среди прочих), выполняют работу по интеграции различных инструментов, составляющих ткань данных, тем самым избавляя клиентов от необходимости выполнять эту интеграционную работу самостоятельно.
По словам Юханны, по мере того, как структура на основе ткани данных становится все более распространенной, она может стать просто еще одной функцией, доступной для организации при подключении к облаку для управления данными. Однако если организация не хранит все свои данные только в одном облаке и использует не только инструменты управления данными от этого поставщика, то возникнет необходимость в обеспечении совместной работы различных инструментов.
Возможно, рынок нуждается в стандарте data fabric — протоколе, которого придерживаются все поставщики в этой области и который гарантирует (или, по крайней мере, увеличивает шансы), что инструменты управления данными будут хорошо работать вместе. Это позволит организациям выбирать инструменты управления данными, которые они хотят использовать, что избавит их от необходимости приобретать полный набор инструментов для работы с данными у одного поставщика.
По словам Юханны, именно в этом направлении еще предстоит работать. «Мы можем вывести ситуацию на семантически управляемый уровень с помощью какого-либо вида ткани данных, маркетплейсов или сервисов данных, которые все еще находятся в процессе развития, — говорит он. — Стандарты играют большую роль в этом уравнении. Очевидно, что люди используют стандарты JSON и SQL-доступ, а также ODBC и JDBC. Мы все еще совершенствуем некоторые из этих вещей. Но я думаю, что начало положено».
Сетка данных
Подход с использованием сетки данных обеспечивает некоторые из тех же преимуществ, что и ткань данных. С помощью сетки данных организация может предоставить независимым группам разработчиков продуктов данных доступ к корпоративным данным в управляемой манере самообслуживания, тем самым помогая раскрыть потенциал данных и избегая хаоса данных при соблюдении некоторых основных правил.
Жамак Дехгани, которая несколько лет назад, работая в компании Thoughtworks, стала инициатором концепции сетки данных, недавно открыла новую компанию Nextdata, цель которой — помочь организациям запускать свои сетки данных с помощью пакетного предложения. Компания разрабатывает контейнерное промежуточное ПО, которое позволяет разработчикам создавать и развертывать продукты данных простым, но управляемым способом, автоматизируя при этом некоторые задачи управления.
Идея Nextdata заключается в создании более высокого уровня абстракции, который упрощает задачи управления для разработчиков продуктов данных, которые в настоящее время пытаются соединить все вместе. «Из-за такого количества инструментов и функций мы переживаем Кембрийский взрыв, — говорит Дехгани. — Вселенная вокруг нас просто дезориентирована».
Подобно тому, как появление микросервисов и REST API помогло упростить интеграцию для разработчиков корпоративных приложений, сетка данных обеспечит «телефонную связь», на которую смогут полагаться специалисты по анализу данных и разработчики ИИ, чтобы все необходимые части не развалились из-за отсутствия экспертизы на каждом уровне стека.
«Мир нуждается в наборе технологий, которые сделают возможным обмен аналитикой и аналитическими данными или данными для ИИ и MО для усредненной технической группы в бизнес-домене, — говорит Дехгани. — Должна быть какая-то технология, обеспечивающая совместимость, потому что, естественно, эти продукты данных будут построены на разных технологических стеках. Но если они будут совместимы, я смогу использовать эти данные для ИИ и аналитики. И самое главное, в это должна быть встроена какая-то форма управления и политики как кода, чтобы в итоге мы не получили данные, которым никто не может доверять из-за отсутствия управления ими».
Сверху вниз или снизу вверх?
Сетка данных и ткань данных решают одни и те же задачи, поэтому их часто путают. Однако они представляют собой два принципиально разных подхода.
Ткань данных — это скорее подход «сверху вниз», который в значительной степени опирается на централизацию. Хотя физическая централизация данных уже невозможна, многие предприятия требуют централизации и стандартизации управления данными и политики управления. Таким образом, ткань данных становится выражением этих политик на основе метаданных, в соответствии с конкретными процессами, контролируемыми в составных частях ткани.
С другой стороны, сетка данных — это скорее подход «снизу вверх», который в большей степени опирается на децентрализацию. Предоставляя разрозненным группам аналитиков и разработчиков ИИ/МО-продуктов доступ к данным, которые, так сказать, имеют встроенные средства управления и контроля, можно высвободить продуктивность разработчиков без проблем с управлением и контролем, которые обычно возникают при таком подходе.
По словам Юханны, эти два подхода не являются несовместимыми. Некоторые компании строят ткани данных для конкретных областей и приходят к сеткам данных. «Если вы построите одну ткань данных на клиентском домене, а затем построите другую ткань на другом домене, например, домене продуктов или поставщиков, то, как только вы охватите все эти домены, у вас получится сетчатая архитектура, — говорит аналитик Forrester. — Зрелые организации идут по этому пути построения совокупности нескольких тканей, представляющей собой сетку данных».
Однако Дехгани выражает скептическое отношение к подходу ткани данных, в частности, к компоненту, где различные ее составные части сшиваются вместе — метаданным.
«Нельзя просто намазать сверху слой метаданных и сказать, что у меня есть качественные надежные данные. Я не думаю, что таким образом можно создать сетку данных, — говорит она. — Сетка данных — это источник, где генерируются данные. Это предоставление достоверной информации в реальном времени, почти в реальном времени и только из источника... Давайте исправлять на уровне источника!».
Пока еще слишком рано говорить о том, одержит ли один подход победу над другим. И ткань данных, и сетка данных вызывают интерес и привлекают пристальное внимание предприятий, сталкивающихся с острыми, постоянно возникающими проблемами интеграции данных и приложений. Предприятия, потратившие свободные средства на новые инструменты аналитики и MО, стремятся интегрировать их в существующие стеки. За последние 10 лет появилось нечто похожее на современный стек данных, но изменения и дополнения — это постоянная реальность.
В то же время одно можно сказать наверняка: по мере поступления все новых данных и дальнейшего развития инструментов аналитики и MО — это лишь вопрос времени, когда произойдет следующий большой инновационный скачок, который также должен быть интегрирован в стек.