Согласование стратегии управления данными с бизнес-приоритетами гарантирует направление ресурсов на достижение важных стратегических результатов, пишет на портале The New Stack Иван Новик, руководитель направления управления продуктами платформ данных в подразделении Tanzu компании Broadcom.

Многие устаревшие системы данных не были разработаны для удовлетворения требований современных рабочих нагрузок искусственного интеллекта. Модели ИИ, интеллектуальные агенты и конвейеры автоматизации требуют быстрого, надежного, понятного и хорошо интегрированного доступа к данным. Организации, преуспевающие в этой среде, — это те, кто целенаправленно организует и управляет своими данными, а не просто пассивно их хранит. Короче говоря, они относятся к своим данным как к продукту.

Они присваивают им имена, версионируют, документируют, назначают владельца и согласуют их с бизнес-результатами. Они обеспечивают доступ к данным через структурированный каталог. Они выбирают правильную инфраструктуру в зависимости от способа доступа к данным и их обновления. Они не избегают сложных наборов данных (таких как потоки данных реального времени, неструктурированный контент или новые внешние источники), потому что знают, что именно в них заключается наибольшая стратегическая ценность.

Создавайте продукты данных, а не просто храните данные

Каждый важный набор корпоративных данных должен быть организован и поддерживаться как часть продукта данных. Каждый такой продукт должен иметь четкое название, цель и видение, а также полную документацию, дорожную карту и назначенного продакт-менеджера. Такой подход обеспечивает структуру, подотчетность и целенаправленную эволюцию активов данных, которые в противном случае оставались бы неуправляемыми и недоиспользуемыми.

Хороший продукт данных следует оценивать так же, как и любой другой бизнес-продукт: если он генерирует больше ценности, чем затраты на его поддержку, он заслуживает постоянных инвестиций и усовершенствований. В противном случае его следует закрыть.

Продукты данных должны иметь регулярный цикл выпуска, а улучшения должны основываться на отзывах самых важных потребителей, таких как ведущие андеррайтеры, менеджеры по работе с претензиями, директора по маркетингу и специалисты по работе с клиентами, которые глубоко понимают, что необходимо для достижения успеха в бизнесе.

Согласуйте стратегию данных с критически важными задачами бизнеса

Продуктивизация данных должна определяться влиянием на бизнес и фокусироваться на высокоценных сценариях использования, где аналитика на основе данных обеспечивает четкие и измеримые результаты. Строго регулируемые отрасли особенно чувствительны к правилам использования, защиты и конфиденциальности данных. Примеры сценариев использования, сильно зависящих от данных:

  • динамические модели ценообразования, адаптированные к поведенческим сигналам риска;
  • выявление мошенничества в режиме реального времени с использованием анализа шаблонов страховых случаев;
  • андеррайтинг с использованием ИИ, адаптирующийся к новым тенденциям в образе жизни и биометрии, проактивно предотвращающий отток клиентов с использованием данных о настроениях и взаимодействии;
  • автоматизация соблюдения нормативных требований с помощью контрольных журналов с учетом происхождения данных.

Каждый продукт данных должен непосредственно поддерживать критически важную бизнес-функцию. Устаревший подход создания озер данных «на всякий случай» или бесцельного хранения данных приводит к неконтролируемому разрастанию и операционным потерям. Вместо этого инициативы в области данных должны начинаться с бизнес-результатов. Это означает систематическое взаимодействие с заинтересованными сторонами бизнеса — актуарной, операционной, маркетинговой, страховой и финансовой — для понимания их текущих и будущих потребностей в данных.

Ваш план развития продукта данных должен основываться на результатах этого взаимодействия. Любой актив данных, не являющийся частью регулируемого продукта данных или не отвечающий потребностям заинтересованных сторон бизнеса, должен быть удален или архивирован. Такой подход преобразует данные из пассивной инфраструктуры в управляемый стратегический портфель, где ресурсы сосредоточены на поддержании и развитии продуктов данных, которые активно способствуют достижению целей организации.

Предоставьте доступ к данным через API, доступные для MCP

Агенты и модели ИИ работают наиболее эффективно, когда они могут получать доступ к данным через стандартизированные подключаемые протоколы, совместимые с различными клиентами и средами выполнения. Подобно тому, как REST и SQL обеспечивали широкую совместимость в предыдущих поколениях приложений, Model Context Protocol (MCP) становится стандартным интерфейсом для доступа ИИ к корпоративным данным.

Предоставляя доступ к данным через API, доступные для MCP, организации делают эти продукты доступными для ИИ-агентов, больших языковых моделей (LLM) и других интеллектуальных клиентов без необходимости использования специальной логики интеграции. Инструменты MCP определяют общий шаблон взаимодействия, который позволяет агентам определять возможности продукта данных, отправлять структурированные запросы или выполнять действия и получать результаты в удобных для них форматах, таких как JSON или векторные вложения. Эти интерфейсы также поддерживают традиционные приложения, позволяя как клиентам с ИИ, так и без него использовать один и тот же продукт данных с помощью единого набора инструментов.

Каждый продукт данных должен включать как минимум один MCP-инструмент, предоставляющий модульный декларативный интерфейс для выполнения соответствующих операций, таких как поиск, фильтрация, подстановка, суммирование или прогнозирование. Эти инструменты располагаются поверх продукта данных и абстрагируются от базового хранилища и вычислительного ядра. Независимо от того, поддерживаются ли данные реляционной базой данных, векторным хранилищем или индексом документов, уровень MCP обеспечивает стандартизированный и легко обнаруживаемый доступ.

Такой подход позволяет предприятиям подготовить свою архитектуру данных к будущему. По мере появления все большего количества ИИ-агентов, «вторых пилотов» и конвейеров генерации с расширенной выборкой (RAG) любая система, поддерживающая MCP, сможет начинать работать с корпоративными продуктами данных немедленно и безопасно, без необходимости использования специализированных коннекторов или дублирования конвейеров.

Инвестируйте в перспективные и новые источники данных

Предприятия, готовящиеся к следующей волне инноваций в области ИИ, должны выйти за рамки традиционных наборов данных, таких как данные о клиентах, транзакциях, заявках и веб-аналитика. Самые эффективные приложения ИИ будущего, такие как гиперперсонализированный клиентский опыт, генеративные помощники и поведенческие модели риска, будут зависеть от новых, нетрадиционных источников данных, которые предоставляют более глубокий контекст, тональность и намерения.

Дальновидные предприятия могут создать портфель продуктов данных с несколькими высокопотенциальными областями, такими как:

  • Мониторинг настроений клиентов и репутации бренда: сбор и агрегирование индекса потребительской лояльности (NPS), настроений в колл-центрах и упоминаний в социальных сетях, используемых отделами маркетинга и обслуживания клиентов для точной настройки охвата и проактивного реагирования на недовольство.
  • Журналы согласия и метаданные комплаенса: централизованный продукт, который отслеживает все варианты согласия/отказа клиентов, флаги использования данных и политики контроля доступа, интегрированные непосредственно в конвейеры ИИ для обеспечения применения политик в режиме реального времени.
  • Журналы ответов на подсказки и вложений от LLM: хранят каждую пару «подсказка-ответ» от внутренних «вторых пилотов» LLM, а также векторные вложения и обратную связь от человека; поддерживают непрерывную настройку модели и помогают обосновать решения LLM в ходе аудитов.
  • Биометрические данные и данные носимых устройств (с явного согласия): продукт, который собирает биометрические данные с «умных» часов клиентов, давших согласие, для моделирования факторов риска, связанных с образом жизни, в режиме реального времени для динамического андеррайтинга.
  • Внешние каналы обогащения: интегрированный продукт, который интегрирует данные кредитных бюро, модели воздействия климата, демографические данные переписи населения, наборы данных геолокации и сигналы реального времени из новостных агентств, СМИ и общедоступных интернет-источников для улучшения профилей клиентов и более точной сегментации рисков за счет использования внешнего контекста, недоступного только с помощью внутренних систем.

Это лишь некоторые примеры того, как предприятия могут оставаться в авангарде своей отрасли, используя новые активы данных для получения устойчивого стратегического преимущества.

Векторизуйте все неструктурированные данные

По мере того, как предприятия переходят на менталитет продуктов данных, становится недостаточно концентрироваться только на наборах структурированных данных. Чтобы оставаться конкурентоспособными, организациям также необходимо инвестировать в перспективные источники данных, многие из которых не структурированы и традиционно сложны в работе. К ним относятся кадры с дронов, спутниковые снимки, записи в блогах, юридические документы, журналы чатов, медицинские записи и электронные письма клиентов. Несмотря на богатство в плане инсайтов, эти источники часто игнорируются или используются недостаточно, поскольку им не хватает структуры, необходимой для удобной интерпретации и готовности к использованию ИИ.

Чтобы устранить этот пробел, предприятиям необходимо рассматривать неструктурированные данные как неотъемлемую часть своего портфеля продуктов данных и преобразовывать их в форматы, готовые к ИИ. Это включает в себя создание конвейеров векторизации, которые используют текстовые и мультимодальные модели вложений для преобразования необработанного контента (например, документов, электронных писем и стенограмм) в многомерные векторы, отражающие семантическое значение. Эти вложения позволяют выполнять такие операции, как поиск по сходству, семантическая кластеризация и RAG.

Более продвинутые сценарии использования включают кросс-модальный поиск, когда пользователи могут находить релевантные видео или изображения, используя естественный язык, что позволяет осуществлять поиск видео или изображения по текстовому описанию. После создания вложений данные можно индексировать в векторных базах данных, что упрощает поиск даже в крупных хранилищах неструктурированного контента.

Рассматривая неструктурированные данные как первоклассный продукт данных и инвестируя в новые типы данных, предприятия могут сделать ранее недоступный контент полностью доступным для современных систем ИИ. В результате они становятся более интеллектуальными, адаптивными организациями, способными искать и обобщать все свои данные и действовать на их основе, а не только использовать структурированные данные, представленные в виде строк и столбцов.

Внедрите отслеживание происхождения, согласие, объяснимость и управление

Если мы стремимся рассматривать данные как продукт, то обеспечение его качества должно включать отслеживание происхождения, наличие согласие, объяснимость и управление. Это не дополнительные функции; это основные атрибуты, которые определяют, можно ли доверять продукту данных, повторно использовать его и внедрять в критически важные рабочие процессы.

  • Отслеживание обеспечивает необходимую прослеживаемость для понимания происхождения данных, их преобразования и прохождения через системы, работающие ниже по цепочке. Эта прозрачность крайне важна для отладки, аудита и оценки надежности.
  • Согласие гарантирует, что данные используются надлежащим образом и в соответствии с правовыми, нормативными и определяемыми пользователем границами. Для продуктов данных должны быть реализованы детальные механизмы контроля доступа, отражающие соглашения об передаче данных и выбор параметров конфиденциальности.
  • Объяснимость означает, что потребители данных ниже по цепочке — будь то пользователи-люди или системы машинного обучения — могут понять, как были получены данные, что они собой представляют и как они влияют на решения. Это особенно важно для моделей передачи данных, влияющих на ценообразование, обращения или взаимодействия с клиентами.
  • Управление охватывает операционную дисциплину, связанную с каждым продуктом данных. Политики доступа, контракты на использование, метрики качества данных и контрольные журналы должны быть внедрены и поддерживаться в течение длительного времени.

Внедрив эти практики в цикл разработки и выпуска каждого продукта данных, организации смогут обеспечить ответственное использование данных при масштабировании операции на основе ИИ с доверием и подотчетностью.

Публикуйте продукты данных в структурированном каталоге

Когда данные рассматриваются как продукт, они должны быть легко обнаруживаемыми, понятными и заслуживающими доверия, как и любой другой продукт на предприятии. Ключевым элементом реализации этого принципа является поддержание структурированного централизованного каталога данных, который предоставляет как пользователям-людям, так и системам ИИ доступ к портфелю корпоративных продуктов данных.

Каталог должен:

  • поддерживать расширенный графический интерфейс для просмотра активов данных заинтересованными сторонами;
  • обеспечивать бесперебойную интеграцию с инструментами ИИ через стандартизированный доступ к API, например, через MCP;
  • содержать подробные метаданные, описывающие продукт данных, его структуру и предназначение;
  • предоставлять четкую информацию о владении и контроле над продуктом, описание продукта, а также ссылки на документацию, руководства по использованию и известные ограничения;
  • отображать происхождение данных, показывая, откуда берутся данные, как они преобразуются и какие нижестоящие системы или модели ИИ их используют.

Публикуя продукты данных в каталоге, организации формируют общее понимание ландшафта данных и преобразуют абстрактное озеро данных в понятную экосистему доверенных, курируемых ресурсов, позволяя ИИ-командам работать с уверенностью и ясностью.

Каталог позволяет командам избегать лишних усилий, способствует повторному использованию и более уверенному внедрению ИИ. Специалисты в области науки о данных могут отслеживать признаки вплоть до исходных входных данных. Аналитики могут проверять, подходит ли набор данных для их сценария использования. Инженеры могут оценивать влияние изменений, вносимых в процесс.

Управляйте скоростью и объемом

По мере того, как предприятия переходят к управлению данными как продуктами, они сталкиваются с очевидной операционной проблемой: многие из этих новых продуктов данных обновляются в режиме реального времени и они значительно больше традиционных наборов данных. Нередко современные продукты данных, особенно созданные на основе журналов, датчиков, видео или контента, сгенерированного моделями, достигают размеров десятков или сотен терабайт, а в некоторых случаях и петабайт.

Это увеличение объема и скорости данных предъявляет новые технические требования. Некоторые продукты данных должны поддерживать непрерывное обновление с доступом с низкой задержкой. Другие необходимо сканировать параллельно в крупных распределенных системах. Многие должны быть экономичными в плане хранения, но при этом обеспечивать быстрый доступ для поддержки рабочих процессов ИИ, аналитики или комплаенса.

Для удовлетворения этих требований предприятиям необходим широкий набор систем обработки данных, способных удовлетворить потребности современных рабочих нагрузок ИИ. Многие традиционные базы данных и озера данных не были разработаны с учетом объема, скорости и шаблонов доступа, необходимых системам ИИ. В результате им часто трудно эффективно обслуживать эти рабочие нагрузки. Ни одна система не может удовлетворить все потребности, поэтому крайне важно подобрать для каждого продукта данных инфраструктуру, отвечающую его требованиям к производительности, задержке и масштабируемости.

Управление большими объемами и высокой скоростью данных требует большего, чем просто добавления инструментов — для этого нужна интегрированная платформа данных, объединяющая различные системы обработки данных, каждая из которых оптимизирована для различных шаблонов доступа, таких как поиск, агрегация, обновления в реальном времени и пакетная аналитика.

Успех достигается благодаря практичности и целенаправленности. Это включает в себя:

  • Выбор правильной инфраструктуры для каждого продукта данных.
  • Мониторинг его работы в условиях меняющихся требований.
  • Адаптация архитектуры к меняющимся потребностям.

Связная платформа, поддерживающая разнообразные рабочие нагрузки, обеспечивает стабильную производительность и масштабируемость без лишних затрат и сложностей эксплуатации.

Извлеките максимальную выгоду из своих данных

Отношение к данным как к продукту — с определением собственности, документированием, управлением версиями и четким назначением — поможет вам извлечь максимальную выгоду из ваших данных. Это создает основу, необходимую для поддержки современных рабочих нагрузок ИИ, аналитики и автоматизации. Согласование работы с данными с бизнес-приоритетами гарантирует, что ресурсы будут направлены на достижение важных результатов, а структурированные каталоги и грамотно выбранная инфраструктура сделают данные более доступными, масштабируемыми и пригодными для повторного использования в рамках всей организации.