В новом опросе руководителей компаний, занимающихся данными, проведенном компанией Informatica, качество данных названо главным препятствием на пути внедрения генеративного искусственного интеллекта (GenAI). Количество инструментов управления данными, которые используют компании, а также тот факт, что значительная часть компаний жонглирует более чем 1000 отдельными источниками данных, также препятствуют реализации GenAI-инициатив, сообщает портал Datanami.
Согласно отчету Informatica «CDO Insights 2024», составленному на основе опроса 600 лидеров в области данных в крупных компаниях по всему миру, 45% организаций уже внедрили GenAI в той или иной форме, а еще 53% планируют внедрить его (причем 36% заявили, что сделают это в течение двух лет). Таким образом, всего 2% компаний утверждают, что GenAI им не подходит — удивительно мало для технологии, о существовании которой большинство людей не знало еще 14 месяцев назад.
Однако добиться успеха с GenAI не так просто, как подписаться на аккаунт OpenAI и пустить в ход GPT. Хотя современные предварительно обученные большие языковые модели (LLM) намного проще в работе, чем технологии обработки естественного языка (NLP) прошлых лет, наличие хороших данных все равно имеет решающее значение для того, чтобы все это работало, независимо от того, обучаете ли вы модель с нуля, настраиваете ли предварительно построенную модель или запрашиваете LLM во время выполнения. Плохие данные торпедируют проект GenAI так же эффективно, как и любой другой проект в области ИИ или MО.
Исследование Informatica показало, что 42% руководителей, которые в настоящее время внедряют GenAI или планируют это сделать (таковых оказалось 588 из 600 респондентов), назвали качество данных главной проблемой, препятствующей успеху GenAI. За качеством данных следуют другие проблемы GenAI: конфиденциальность и защита данных, этика ИИ, количество предметных данных для обучения и тонкой настройки языковых моделей и администрирование ИИ.
Эти основные аспекты управления данными пользуются большим интересом. Так, все 100% участников опроса заявили, что инвестируют в возможности управления данными для поддержки своих стратегий и приоритетов в области данных.
Эти 100% — хороший знак для поставщиков инструментов для управления данными, охватывающих интеграцию данных и ETL, обеспечение качества данных, каталогизацию данных, администрирование данных, управление мастер-данными, наблюдаемость данных, а также API и приложения. Informatica обнаружила, что 58% участников опроса используют пять и более инструментов для управления данными. Причем 49% респондентов не смогли найти большинство этих инструментов управления данными в виде облачных сервисов.
Больше данных, как правило, означает больше инсайтов и лучший сигнал. Но, по данным Informatica, две из пяти компаний говорят, что имеют дело с 1000 и более источниками данных. Почти 80% опрошенных заявили, что ожидают увеличения количества источников данных в 2024 г.
Неудивительно, что 39% руководителей, отвечающих за работу с данными, в качестве приоритетов на 2024 г. называют повышение надежности и согласованности данных для использования в GenAI. Еще 39% назвали в качестве целей на 2024 г. культуру управления данными и повышение грамотности в области данных, а 38% — улучшение администрирования данных и процессов обработки данных.
То, что управление данными стало ключевым фактором, способствующим развитию GenAI, не удивляет Джитеша Гая, директора по продуктам компании Informatica. «Неудивительно, что внедрение генеративного ИИ и стратегии работы с данными, необходимой для его успешного осуществления, продолжают занимать доминирующее положение в деятельности большинства лидеров в области данных, независимо от региона или вертикали, — говорит он. — Несмотря на то, что существует огромное количество технических и организационных препятствий, через которые должны пройти эти лидеры, очевидно, что инвестиции в целостные, высокоинтегрированные возможности управления данными являются ключом к раскрытию огромного потенциала GenAI и позволяют предприятиям взять под полный контроль свои постоянно расширяющиеся активы данных».