Унификация данных в ИТ-средах организаций сопряжена с рядом проблем, и самая серьезная из них — изолированность данных, отмечают опрошенные порталом InformationWeek эксперты.
Хотя модели искусственного интеллекта, основанные на данных, набирают популярность, их успех зависит от высококачественных базовых данных.
Яад Орен, управляющий директор SAP Labs US и глобальный руководитель инноваций SAP BTP, объясняет, что внедрение ИИ в организации невозможно без надежных и управляемых данных. «Единая стратегия обработки данных упрощает ландшафт данных, поддерживает контекст данных и обеспечивает точное обучение моделей ИИ», — говорит он.
Это приводит к более эффективному внедрению ИИ и позволяет компаниям использовать данные для получения более глубоких инсайтов, ускорения роста и повышения эффективности. «Единая архитектура данных имеет решающее значение для создания целостной картины бизнес-операций и предотвращения последствий несовершенства ИИ», — добавляет Орен.
Объединяя разрозненные данные по всему предприятию, архитектура данных обеспечивает сохранность контекста данных, давая представление о том, как эти данные были получены, где они находятся, когда были созданы и к кому относятся. «Стратегия, включающая архитектуру данных, позволяет пользователям получать доступ к данным и использовать их в режиме реального времени, создавая единый источник истины для принятия решений и автоматизируя процессы управления данными», — объясняет Орен. Кроме того, единая архитектура данных обеспечивает тщательное обучение моделей ИИ с учетом соответствующего бизнес-контекста для получения точных, надежных и высококачественных результатов.
Практический подход
«Для успешной интеграции разрозненных источников данных мы начинаем с проведения комплексного аудита данных, чтобы выявить все существующие хранилища данных в организации», — рассказывает Вагнер Страпассон, ведущий технический инженер по данным Indicium.
Это предполагает взаимодействие с ключевыми заинтересованными сторонами из различных департаментов для составления схемы ландшафта данных, что помогает компании понять типы имеющихся данных и их расположение. Затем проводится оценка качества и актуальности выявленных данных с использованием инструментов профилирования для выявления несоответствий, дубликатов и других проблем.
«После этого мы создаем централизованную систему управления данными, которая определяет политики, роли и стандарты для обеспечения согласованной практики управления данными в организации», — говорит Страпассон.
Чтобы обеспечить успешную интеграцию, компания поощряет регулярное общение и сотрудничество между командами, а также постоянно отслеживает и поддерживает интегрированные данные для решения любых возникающих проблем.
Цифровые отпечатки, унифицированные стратегии
«В современных архитектурах данных особое внимание уделяется организации данных и созданию их цифровых отпечатков (data fingerprinting) для эффективного доступа и обучения моделей ИИ», — объясняет Сунил Сенан, руководитель отдела ИИ и автоматизации Infosys. Это позволяет контролировать доступ, создавать версии синтетических данных и обеспечивать безопасность данных, ускоряя разработку ИИ и повышая точность и надежность моделей.
С другой стороны, распределенные облачные платформы затрудняют реализацию централизованных решений по защите данных, что повышает риск кибербезопасности и увеличивает затраты на соблюдение нормативных требований. «Решения для мультиоблачных сред на базе ИИ ускоряют и масштабируют процесс перехода предприятий к мультиоблакам и позволяют им быстрее задействовать свои собственные массивы данных», — говорит Сенан.
Единая стратегия данных обеспечивает четкую дорожную карту для управления и регулирования данных по всем требуемым компонентам их возможностей, представляя их с точки зрения значимости для бизнеса и обеспечивая их с помощью определенной модели финансирования внедрения и устойчивого функционирования.
Дорожные карты стратегии управления данными могут помочь комплексно рассмотреть аспекты, связанные с людьми (операционная модель), процессами (процессы обработки данными) и технологиями (архитектура данных и технологий), тем самым заложив основу для построения успешных инициатив в области ИИ. «Измерение успеха унификации данных зависит от результатов работы ИИ и бизнес-целей», — говорит Сенан.
Чистые, надежные, управляемые данные
По мнению Джерарда Фрэнсиса, руководителя отдела продуктов и платформ данных и аналитики JPMorgan Chase & Co, для масштабирования инициатив в области ИИ необходимы чистые, доступные и понятные данные. «Данные должны быть зарегистрированы для удобства доступа, управляться и поддерживаться такими инструментами, как каталоги данных и автоматизированные проверки качества», — говорит он.
Эффективная архитектура данных упрощает работу с активами данных, обеспечивает интеграцию с надлежащими средствами контроля, повышает эффективность и результативность процессов и одновременно снижает трудозатраты на разработку моделей ИИ.
«Единая стратегия работы с данными может значительно сократить время, которое специалисты в области науки о данных тратят на доступ к данным, их переформатирование или создание, тем самым повышая эффективность разработки моделей ИИ», — говорит Фрэнсис.
Сетка данных, стратегии грамотного использования данных
По словам Страпассона, его компания использовала несколько стратегий и инструментов для консолидации своих информационных активов.
Одной из таких стратегий стало внедрение архитектуры сетки данных (data mesh), позволяющей отдельным подразделениям управлять своими данными, обеспечивая при этом их доступность в масштабах всей организации. «Такой децентрализованный подход оказался полезным, особенно для приложений генеративного ИИ, требующих разнообразных данных», — говорит он.
Компания также внедрила гибридную систему хранения и обработки данных, объединив сильные стороны озер данных и хранилищ данных. «Такая универсальность позволяет нам работать с различными типами данных, что крайне важно для многих ИИ-приложений», — поясняет Страпассон.
Он добавляет, что формирование культуры грамотного использования данных в организации привело к более глубокому осознанию важности качества данных, что способствовало консолидации данных. «Эти стратегии и инструменты позволили нам создать целостную, эффективную среду данных, которая поддерживает наши инициативы и способствует достижению лучших результатов в бизнесе», — отмечает Страпассон.