Согласно новому глобальному отчету компании Precisely, по мере того как компании начинают внедрять искусственный интеллект, они все внимательнее присматриваются к своим данным и расширяют программы регулирования (governance) данных. Но при ближайшем рассмотрении этих данных выясняется, что они не справляются с задачей создания надежного ИИ, сообщает портал Datanami.

Precisely поручила Колледжу бизнеса Лебоу Университета Дрекселя провести исследование и подготовить отчет «2025 Outlook: Data Integrity Trends and Insights», в котором рассматривается состояние целостности данных и их готовность к ИИ.

Некоторые выводы отчета поначалу могут показаться контринтуитивными. Например, исследование, основанное на опросе 565 руководителей в области данных и аналитики, показало, что три четверти организаций считают, что принятие решений на основе данных является главной целью их программ по работе с данными. Однако две трети опрошенных заявили, что не полностью доверяют данным, которые их организация использует для принятия решений.

В новом отчете также говорится, что 60% организаций заявляют, что ИИ оказывает ключевое влияние на программы работы с данными, что значительно больше, чем в отчете за 2023 г. Но, с другой стороны, только 12% респондентов сообщают, что их данные готовы к ИИ, что указывает на несоответствие между стремлением компаний к использованию данных и ИИ и реальностью на местах.

Тендю Йогуртчу, технический директор Precisely, говорит, что ее не удивляет, что доверие к данным падает на фоне роста инвестиций в них: «ИИ-инициативы действительно заставляют больше сфокусироваться на данных. Как мы будем использовать наши данные? Как мы собираемся начать? Какой будет сценарий использования ИИ? И это заставляет уделить больше внимания зрелости данных и их основам, что в итоге и приводит к недоверию к данным».

К сожалению, повышенное внимание к управлению и регулированию данных не приводит к улучшению их качества, добавляет она: «Доверие и прозрачность будут иметь решающее значение для более широкого внедрения ИИ, а отсутствие регулирования данных как раз препятствует такому доверию и прозрачности».

Йогуртчу называет и другие причины, вызывающие недоверие организаций к своим данным. Так, они делают крупные инвестиции в продукты данных и стремятся модернизировать платформы данных в облаке. Но обе эти инициативы требуют прочного фундамента данных, которого в реальном мире практически не существует.

Исследование также показало, что, хотя 76% организаций утверждают, что принятие решений на основе данных является главной целью их программ по работе с данными, 67% все еще не полностью доверяют данным, на которые они опираются при принятии таких решений. Согласно Йогуртчу, это больше, чем 55%, которые не полностью доверяли своим данным в 2023-м.

Может показаться, что с течением времени качество данных и доверие к ним меняются в худшую сторону. Но есть и другая возможность — с которой согласна Йогуртчу, и она более вероятна, — что качество самих данных может оставаться относительно неизменным, просто в результате более тщательного контроля, который обеспечивается улучшением программ управления данными, компании начинают лучше понимать проблемы качества данных, которые всегда существовали.

«Мы видим, что ИИ сильно влияет на то, как они относятся к управлению данными и к целостности данных в целом, и я думаю, что это приводит к желанию убедиться в наличии надлежащего управления данными», — говорит она.

Очевидно, что в значительной степени интерес к совершенствованию управления данными связан с применением генеративного ИИ. В связи с этим возникает интересный вопрос: как бы компании относились к качеству своих данных, если бы ChatGPT никогда не существовал? Йогуртчу говорит, что приоритеты изменились: «Если бы ChatGPT не появился, если бы его не было, у нас не было бы нынешнего чувства срочности в управлении данными».

Источник: отчет Precisely «2025 Outlook: Data Integrity Trends and Insights»

В качестве основных препятствий на пути к высокому качеству данных в отчете названы неадекватные инструменты для автоматизации процессов обеспечения качества данных, противоречивые определения или форматы данных, большой объем данных или количество источников данных, нехватка навыков или персонала, неспособность создавать или применять политики или правила обеспечения качества данных и измерять качество данных, недостаточная информированность, отсутствие интеграции с другими процессами управления данными и отсутствие институциональных приоритетов.

«Одна из причин нынешней ситуации заключается в том, что из-за большого количества изолированных данных организации не могут даже увидеть, как эти данные перемещаются, что происходит при нескольких преобразованиях или при путешествиях по конвейерам данных и как обстоят дела с целостностью, качеством или наблюдаемостью данных, — говорит Йогуртчу. — Они не могут видеть, что происходит с их данными».

В отчете отмечается, что большинство организаций планируют использовать данные для ИИ, при этом анализ данных на сегодняшний день является главным сценарием применения ИИ, за ним следуют обслуживание и поддержка клиентов, написание контента, копирование рабочих процессов, обнаружение мошенничества и угроз, сегментация и персонализация клиентов, а также написание кода.

Основными препятствиями для достижения целей внедрения ИИ являются качество данных, как уже говорилось ранее, а также отсутствие технической инфраструктуры, низкий уровень квалификации сотрудников в области ИИ, отсутсвие финансовых ресурсов, низкая организационная культура в поддержку ИИ, недостаточное управление и согласование бизнес-стратегии, говорится в отчете.

В исследовании подробно рассматриваются многие аспекты целостности данных и доверия к ним, в том числе то, как они менялись с годами. Например, 60% респондентов отметили, что качество данных является главным приоритетом на 2024 г., по сравнению с 54% в 2023-м. Аналогичным образом, регулирование данных является главным приоритетом для 57% организаций в этом году по сравнению с 41% в прошлом. В этом году каталоги данных были названы приоритетными для 25% респондентов, а репликация данных — для 18%; оба этих варианта являются новыми для отчета-2024. Сетки и ткани данных в 2024 г. были названы «ключевыми влиятельными тенденциями» 18% респондентов, что на пять процентных пунктов больше, чем в прошлом году.

В отчете Precisely есть раздел, посвященный аналитике местоположения, которая является одной из специализаций компании. Доля респондентов, указавших аналитику местоположения (или пространственную аналитику) в качестве приоритета, выросла с 13% в 2023 г. до 21% в 2024-м. Пространственная аналитика требует пристального внимания к деталям, считают в Precisely.

«Данные о местоположении должны быть максимально целостными, чтобы полностью использовать их потенциал для расширенной аналитики, отчетности и принятия более обоснованных решений, — говорится в отчете. — Достижение такой целостности требует инструментов для очистки существующей информации и получения новых атрибутов местоположения с помощью пространственной аналитики и обогащения данных».

По словам Йогуртчу, совершенствование аналитики местоположения — один из наиболее быстро растущих приоритетов, позволяющих повысить целостность данных и тем самым улучшить качество инсайтов, получаемых на их основе. «Например, страховой компании нужно провести оценку риска и установить соответствующую цену, — говорит она. — Ей нужно знать местоположение, границы объекта недвижимости и множество атрибутов, связанных с этим местоположением. Как далеко он находится от зоны лесных пожаров? Как далеко от зоны затопления? Как далеко от школ? Близко ли к системе водоснабжения? Есть множество атрибутов, которые нужно обогатить в дополнение к этому местоположению».

По ее словам, эти данные о местоположении становятся еще более важными для ИИ, поскольку компании начинают использовать для автоматизации конкретных задач большие модели действий (LAM) наряду с методами расширенного поиска (RAG). Но без хороших данных далеко не уедешь.

«Качество данных остается одной из главных проблем. И внедрение систем регулирования данных растет, — отмечает Йогуртчу. — Мы также видим рост инвестиций в связанные с местоположением инсайты и обогащение данных».