Директор по работе с данными компании Indicium Дэниел Аванчини описывает на портале ITPro Today семь основных шагов для построения стека данных, который обеспечит вам полный контроль над данными.

Стек данных предприятия — то есть набор инструментов, которые оно использует для управления данными — должен быть ресурсом, который помогает бизнесу процветать. Однако слишком часто стек данных становится бременем, которое сдерживает компании и ограничивает их способность к инновациям.

Это происходит, когда организации привязываются к инструментам и процессам работы с данными, которые в конечном итоге определяют границы того, что они могут делать со своими данными. Вместо того чтобы использовать данные адаптируемыми способами в зависимости от потребностей бизнеса, они позволяют своему стеку данных диктовать, что бизнес может — и чего не может — делать с имеющейся в его распоряжении информацией.

Чтобы освободиться от этого ограничения (или вообще избежать его), необходимо тщательно оценить и выбрать инструменты, которые ваша компания использует для создания своего стека данных. Вам нужны инструменты, которые позволят вам контролировать данные, а не инструменты, которые контролируют то, что вы можете делать с данными.

Я не хочу сказать, что какой-то один инструмент лучше всего подходит для всех. Это не так, потому что каждой компании нужны инструменты для работы с данными, которые делают разные вещи. Но я хотел бы подробнее рассказать о том, о чем следует думать при выборе инструментов для работы с данными и создании стека данных с целью максимизации гибкости и ценности и минимизации ограничений.

Как мы к этому пришли: краткая история стека данных

По иронии судьбы, усилия последнего десятилетия, направленные на повышение модульности и гибкости стеков данных, во многом стали причиной того, что многие компании в итоге получили стеки данных, которые ограничивают, а не повышают их гибкость в плане инноваций.

До 2010-х большинство корпоративных платформ данных были монолитными. Они представляли собой решения, в которых все возможности управления данными, которые могли понадобиться компании, были упакованы в один продукт. Это делало стеки данных очень негибкими, поскольку использовать несколько платформ для разных целей было непрактично. За редким исключением, вы должны были выбрать поставщика и использовать исключительно его инструменты для работы с данными, что приводило к негибким стратегиям управления данными. Миграция между платформами данных также была очень сложной, что усугубляло проблемы, связанные с монолитной архитектурой решений для работы с данными.

Затем, примерно десять лет назад, появился ряд более модульных решений для работы с данными, многие из которых были разработаны стартапами. Вместо того чтобы пытаться создавать монолитные решения, способные делать все в области управления данными, большинство из этих поставщиков ориентировались на конкретные типы потребностей. Например, были инструменты, которые занимались только качеством данных или поддерживали только обнаружение данных. Идея новой экосистемы заключалась в том, что компании выиграют, если смогут выбирать из множества решений и создавать стеки данных, отвечающие их потребностям.

Конечно, отсутствие привязки к единой монолитной платформе данных — это хорошо. Однако модульные инструменты для работы с данными также не всегда являются гарантией свободы выбора и гибкости. Они могут быть столь же ограничивающими в случаях, когда сложно перейти с одного инструмента на другой или когда вы используете несколько инструментов, включающих дублирующие или лишние возможности — что фактически означает, что вы платите за большее количество функций, чем реально используете.

Я хочу сказать, что, хотя стало принято говорить о «современном стеке данных» как об очень гибком и модульном подходе к удовлетворению потребностей в управлении данными, реальность не всегда так радужна. Я за то, чтобы предоставить компаниям возможность выбирать из нескольких решений для управления данными. Но чтобы получить всю пользу от современного стека, необходимо критически подойти к выбору используемых инструментов и к тому, насколько гибкими они на самом деле являются.

Как построить стек данных, который действительно приносит пользу

Существует семь ключевых шагов, которые необходимо учитывать при создании стека данных, обеспечивающего полный контроль над данными.

1. Определите, какие возможности стека вам нужны

Прежде всего вам нужно подумать о том, что на самом деле должны делать ваши инструменты — и чего они не должны делать.

Это важно, поскольку некоторым компаниям не нужны все виды возможностей управления данными. Например, обнаружение данных или каталогизация могут быть не важны для компании, которая работает только с хорошо организованными, структурированными данными.

Если вы добавляете в свой стек инструменты, которые предоставляют возможности, которые вы не будете использовать, вы излишне усложняете стек. Хуже того, вы затрудняете развитие своего стека с течением времени, поскольку добавляете компоненты, которые не приносят никакой пользы.

Поэтому прежде чем принимать решение о создании стека данных, который будет делать все то же самое, что и монолитная платформа данных, или включать в себя все возможности управления данными, которыми располагают ваши конкуренты, оцените свои реальные требования. Возможно, вы обнаружите, что они проще, чем вы думали, и что ваш стек данных тоже может быть проще.

2. Разработайте независимую архитектуру стека данных

Далее набросайте архитектуру стека данных, которая обеспечит те возможности, которые вы посчитали необходимыми для вашего бизнеса.

Ваша цель — определить, как выглядит ваш идеальный стек данных, включая не только то, какие инструменты он будет включать, но и то, какой персонал и какие процессы будут использовать эти инструменты.

Подходя к этому вопросу, думайте о том, чтобы не зависеть от инструментов. Другими словами, вместо того чтобы рассматривать решения поставщиков и создавать стек на основе имеющихся, сфокусируйтесь на своих потребностях. Это важно, потому что вы не должны позволять инструментам определять, как будет выглядеть ваш стек. Вместо этого сначала нужно определить свой идеальный стек, а затем выбрать инструменты, которые позволят вам его создать.

3. Оцените возможности инструментов для работы с данными

После того как вы поймете, как в идеале будет выглядеть архитектура вашего стека данных, можно приступать к оценке инструментов, которые его обеспечивают.

Основное внимание в этом процессе следует уделить определению того, что делает каждый инструмент уникальным. Многие инструменты, доступные сегодня, предлагают дублирующие друг друга функции, что может привести к ненужной избыточности в вашем стеке данных. В идеале нужно выбирать решения, которые позволят вам построить стек данных, выполняющий именно то, что вам нужно, — не больше и не меньше.

4. Определите, насколько легко будет раскрыть весь потенциал инструментов для работы с данными

Еще один важный момент при оценке инструментов — это то, сколько знаний и усилий необходимо приложить, чтобы заставить инструменты делать то, что вам нужно.

Это важно, потому что поставщики слишком часто акцентируют внимание на потенциальных возможностях своих инструментов, но если инструмент теоретически может что-то сделать, это не значит, что с его помощью это легко сделать. Например, инструмент обнаружения данных, требующий установки специальных плагинов или написания собственного кода для работы с устаревшей системой хранения данных, от которой вы зависите, не принесет столько пользы, сколько тот, который поддерживает формат хранения «из коробки».

5. Оцените возможности миграции

Независимо от того, какие инструменты вы выберете для создания своего стека данных, вы должны стремиться к тому, чтобы обеспечить возможность миграции на альтернативные решения, когда и если это потребуется.

Теоретически модульность современного стека данных упрощает миграцию. Но на практике миграция может быть сложной. Например, может потребоваться переписать правила трансформации — длительный процесс, требующий специальных знаний.

И опять же здесь дело в том, что если вы можете перейти с одного инструмента на другой, это еще не значит, что это будет легко. Вашей целью должно быть создание стека, позволяющего осуществлять беспрепятственную миграцию в любое время.

6. Оцените стоимость инструментов

Подумайте также о том, сколько будут стоить инструменты для работы с данными. Это может показаться очевидным, но различные модели ценообразования и лицензирования, используемые поставщиками инструментов, могут затруднить сравнение затрат. Например, один поставщик может взимать плату только за объем данных, которые вы вводите в его инструмент, а другой — за объем данных, а также за количество различных активов данных, с которыми вы работаете. Некоторые поставщики взимают ежемесячные или ежегодные лицензионные платежи в дополнение к иным расходам, в то время как другие основывают свои платежи только на использовании.

Полное обсуждение того, как разобраться в различных моделях ценообразования инструментов обработки данных, выходит за рамки этой статьи. Но достаточно сказать, что, прежде чем отдать предпочтение тому или иному инструменту, потратьте время на глубокий анализ, чтобы получить точную оценку того, во сколько вам обойдется его использование.

7. Оцените потребности в персонале

Возможности и стоимость инструментов — это лишь часть уравнения, когда речь идет о создании стека данных, который позволит вам стать хозяином положения. Люди играют не менее важную роль. Чтобы эффективно управлять стеком, создавая реальную ценность для бизнеса, вам нужны хорошо структурированные команды, способные обеспечить максимальное использование инструментов.

Глубина экспертизы, которая потребуется от вашей команды, зависит от того, как выглядит ваш стек данных и насколько сложны ваши операции по управлению данными. Но как бы вы ни решили сформировать свою команду, важно с самого начала продумать, что она должна уметь делать. В противном случае вы рискуете ограничить свои возможности по использованию всех преимуществ вашего стека данных из-за недостатков вашей команды.

Заключение: контроль над стеком данных

В каком-то смысле наличие большого количества инструментов для работы с данными сегодня напоминает поход в ресторан с десятками вариантов в меню: несмотря на то, что широта выбора — это хорошо, определение того, что именно выбрать, может показаться обременительным.

Я не могу сказать вам, что заказать на ужин. Но я могу сказать, что при выборе инструментов для создания стека данных необходимо критически и глубоко продумать, что и как делает каждый инструмент. В противном случае вы рискуете создать набор инструментов, которые могут казаться гибкими и модульными, но на практике оказываются такими же ограничивающими, как и монолитные платформы данных старого образца.