Внедрение искусственного интеллекта в корпоративной среде ускоряется, но многие организации сталкиваются с суровой реальностью: ИИ хорош настолько, насколько хороши данные, которые ему передаются. Более конкретно: ИИ хорош настолько, насколько хороши метаданные, которые описывают, фильтруют и управляют этими данными. По мере того, как большие языковые модели (LLM) и другие инструменты генеративного ИИ становятся частью корпоративного мейнстрима, метаданные становятся ключом к успешному использованию неструктурированных данных в ИИ, пишет на портале BigDATAwire Кришна Субраманьян, операционный директор, президент и соучредитель Komprise.

Метаданные предоставляют неструктурированным данным контекст для точного курирования данных. Это важно, поскольку передача больших объемов неструктурированных данных в каждый процесс ИИ может быть чрезмерно дорогой и трудоемкой.

От пассивных меток к активному интеллекту

Традиционно системные метаданные, например, рассматривались как набор пассивных дескрипторов: размер и тип файла, владелец, дата создания и время последнего изменения. Эти метаданные, автоматически генерируемые системами хранения, помогали ИТ-отделам управлять политиками хранения, извлечения и доступа. Однако развитие ИИ радикально изменило то, что могут и должны делать метаданные.

Метаданные становятся центральным интеллектуальным уровнем, поскольку организации видят потенциал их обогащения посредством тегирования данных. Эти обогащенные метаданные включают в себя контекстную информацию, такую как уровни конфиденциальности (например, персональные данные), релевантность отделу (название или идентификатор проекта), географическое положение, аннотации пользователей и сгенерированные ИИ семантические теги, описывающие содержимое. При правильном использовании эти обогащенные метаданные становятся основой надежного, экономичного и соответствующего нормативным требованиям ИИ.

Метаданные в роли защитника процессов ИИ

При применении ИИ возможны передача внутренних черновиков публичному чат-боту, обучение моделей на устаревших или дублирующихся данных или использование конфиденциальных файлов, содержащих данные о сотрудниках, клиентах, финансовую информацию или данные об интеллектуальной собственности. Последствия варьируются от неэффективной траты ресурсов до утечек данных и ущерба репутации.

Комплексная стратегия управления неструктурированными данными с акцентом на управлении метаданными может снизить эти риски, выступая в роли защитника для рабочих процессов ИИ. Например, если компания хочет обучить модель отвечать на вопросы клиентов в чат-боте, метаданные можно использовать для исключения внутренних файлов, неокончательных версий или документов, помеченных как конфиденциальные. Для встраивания и вывода передается только проверенный, отмеченный тегами и надлежащий контент.

Это более интеллектуальный и тонкий подход, чем простое выгрузка всех доступных файлов в конвейер ИИ. Имея под рукой богатый набор метаданных, организации могут фильтровать, сортировать и сегментировать данные в зависимости от бизнес-требований, объема проекта или уровня риска.

Метаданные дополняют векторную маркировку при получения выводов ИИ. Система управления метаданными помогает пользователям определить, какие файлы следует передавать инструменту ИИ, например, документы о медицинских пособиях в чат-бот отдела кадров, а векторная маркировка дает более подробную информацию о содержании каждого документа.

За рамками ETL: эпоха итеративных рабочих процессов на основе метаданных

Традиционная подготовка данных основывалась на процессах ETL (извлечение, преобразование, загрузка), выполняемых в больших объемах и зачастую однократно. Подход ETL был разработан для структурированных данных в таблицах и базах данных. Но ИИ нуждается в чём-то более гибком, способном обрабатывать объёмные и разнообразные неструктурированные данные и выполнять повторяющиеся преобразования.

Благодаря управлению неструктурированными данными предприятия могут автоматизировать весь жизненный цикл данных ИИ:

  • поиск релевантных файлов с помощью расширенных запросов к метаданным;
  • передача их в сервисы ИИ;
  • сбор выходных данных ИИ в виде новых метаданных (например, классификаций, сводок);
  • автоматическое разделение по уровням или удаление данных, когда они больше не нужны.

Например, отдел университетской библиотеки хотел найти нужные изображения среди миллионов файлов в своих цифровых архивах. Предполагая, что ручная проверка каждого файла займет не менее двух минут, они подсчитали, что полный просмотр и запись результатов займут не менее 20 тыс. минут, или более 300 часов. Используя систему управления неструктурированными данными для тегирования метаданных и управления рабочими процессами, а также инструмент ИИ (AWS Rekognition) для проверки, команда справилась с задачей чуть более чем за два часа.

Помимо поддержки подготовки данных ИИ, расширенное управление метаданными также может предоставить ценные инсайты, например, о проценте холодных данных, которые можно переместить в архивное хранилище, что снизит затраты на хранение. Возможность помечать файлы как конфиденциальные (то есть содержащие персональные данные) и перемещать их в защищенное хранилище или удалять — еще одна тактика, которая может снизить риски нарушения безопасности и несоответствия требованиям.

Создание стека метаданных для ИИ

Развитие ИИ стимулирует появление нового типа архитектуры: стека метаданных. В его основе лежат:

  • Интеллектуальное управление неструктурированными данными: инструменты и процессы для индексации и обогащения миллиардов файлов и объектов в гибридных средах.
  • Оркестровка рабочих процессов: отправка нужных данных в нужные инструменты ИИ, локально или в облаке.
  • ИИ-интеграция: подключение к генераторам векторных вложений, моделям классификации и языковым моделям через API.
  • Управление и наблюдаемость: отслеживание происхождения данных, доступа и аудита для предотвращения негативных последствий работы генеративного ИИ.

Этот стек метаданных располагается между инфраструктурой и ИИ, выступая в качестве плоскости управления, которая обеспечивает прозрачность и отслеживаемость в пространстве, часто определяемом моделями «черного ящика» и непрозрачными процессами.

Создание реальной бизнес-ценности

Компании, инвестирующие в оптимизацию метаданных, получают ощутимые преимущества. Возможность эффективно обогащать метаданные структурирует неструктурированные данные, позволяя использовать их в новых целях и повышая их ценность для организации. Вот что это дает:

  • сокращение затрат на ИИ-вычисления и хранение данных ИИ до 80% за счет передачи только нужных данных в дорогостоящие GPU-конвейеры;
  • предотвращение утечек данных за счет использования политик метаданных для идентификации и изоляции конфиденциальных файлов;
  • ускорение поиска данных для команд ИИ за счет предоставления обогащенных, тщательно отобранных наборов данных в репозиториях петабайтного масштаба.

В регулируемых отраслях, таких как здравоохранение, финансы и образование, эти возможности крайне важны. Системы ИИ в этих областях должны работать в строгих рамках обеспечения конфиденциальности и соответствия нормативным требованиям. Метаданные — это то, что делает это возможным.

Стратегический актив, а не побочный продукт

Метаданные больше не являются техническим побочным продуктом. Это стратегический бизнес-актив. Они определяют, как данные обнаруживаются и защищаются, куда они передаются и как используются. В компании, управляемой ИИ, это означает, что метаданные контролируют все: от качества решений до соблюдения нормативных требований. По мере того, как ИИ продолжает преобразовывать корпоративные ИТ-системы, организации, которые рассматривают метаданные как ключевую часть своей архитектуры, а не как нечто второстепенное, получат конкурентное преимущество.