Большие языковые модели (LLM) положили начало новому захватывающему этапу развития искусственного интеллекта, однако, согласно новому отчету WEKA «2024 Global Trends in AI», компании не могут достичь своих целей в области генеративного ИИ (GenAI) из-за нескольких факторов, главными из которых являются низкое качество данных и устаревшие архитектуры данных, сообщает портал Datanami.
В отчете, который WEKA подготовила по заказу S&P Global Market Intelligence, говорится, что 88% организаций изучают технологию GenAI, что перекликается с широким интересом к GenAI, выявленным в других опросах. А 24% организаций активно используют приложения GenAI, что также согласуется с данными других опросов.
Исследователи обнаружили, что внедрение технологии GenAI «стремительно набирает обороты», а внедрение приложений GenAI быстро расширяется. Они отмечают, что по сравнению с 2023 г. произошел «радикальный сдвиг» в уровнях зрелости ИИ-проектов. Большинство из 1500 опрошенных лиц, принимающих решения в области ИИ по всему миру, указали, что ИИ «в настоящее время широко внедряется» и «создает критически важную ценность» для их организаций.
Однако позитивный настрой нарушается при расширении масштабов развертывания GenAI. «В среднестатистической организации 10 проектов находятся на пилотной стадии и 16 — на стадии ограниченного развертывания, — говорится в отчете WEKA, — но только шесть развернуты в полном объеме».
WEKA выявила несколько причин такой ситуации. Прежде всего, доступность графических процессоров по-прежнему ограничена, и компании обеспокоены влиянием инфраструктуры ИИ на окружающую среду. Еще одним фактором является обеспечение конфиденциальности данных. Но самым большим препятствием для полноценного внедрения GenAI, по словам WEKA, является нехватка высококачественных данных.
По словам исследователей, проблема с качеством данных связана не с нехваткой данных как таковых, а с тем, что данные не настроены таким образом, чтобы команды могли в полной мере воспользоваться их преимуществами. В отчете говорится, что качество данных и их конфиденциальность вызывают больше опасений, чем их доступность.
«Задача проектных команд заключается не столько в выявлении необходимых данных, сколько в обеспечении их доступности, — говорится в отчете WEKA. — Организации изо всех сил пытаются создать согласованный, интегрированный фундамент данных для проектов».
Респонденты, участвовавшие в опросе, назвали отсутствие современных архитектур данных основной причиной торможения GenAI. Более трети (35%) заявили, что хранение и управление данными являются основными проблемами инфраструктуры, препятствующими внедрению ИИ, что превышает опасения по поводу вычислений (26%), безопасности (23%) и сетевого взаимодействия (15%).
Проблемы с управлением данными и их хранением влияют на жизненный цикл ИИ-проектов, затрудняя организациям подготовку данных для обучения и развертывания моделей. В частности, серьезную озабоченность вызывает этап предварительной обработки данных. Более того, за последние 12 месяцев ситуация в этой области не улучшилась, что не сулит ничего хорошего для будущей работы с ИИ. «Реализация проектов ИИ с ограниченной ценностью или расширяемостью из-за слабого фундамента данных создает на ранних стадиях плохой прецедент для следующей волны инициатив», — говорится в отчете.
WEKA цитирует анонимных ИТ-лидеров о состоянии их активов данных и о том, как это влияет на их работу с ИИ.
Так, CIO американской компании среднего размера, работающей в сфере грузоперевозок и складирования, рассказал, что его компания по-прежнему сталкивается с проблемами управления основными данными. «В филиалах разные номенклатуры товаров; если я возьму эти разрозненные данные и введу их в модель, мы получим неверные результаты. Наша задача — очистить эти данные», — пояснил он.
Другой CIO британской компании по производству продуктов питания и напитков среднего размера рассказал, что первое, что они сделали, — это «усилили стратегию работы с данными, эффективно создав платформу для обработки данных и возможности управления на ее основе». Это помогло им избежать участи других компаний, которые пытались внедрить управление данными поверх разрозненных активов данных, полученных в результате приобретения.
Организации, инвестировавшие в управление данными и их хранение, с большей вероятностью добьются лучших результатов с GenAI. «Создав надежный фундамент данных с самого начала, руководители в области ИИ обеспечат значимым пилотам четкий путь к масштабированию», — говорится в отчете.
Например, проблемы хранения и управления данными являются самыми серьезными препятствиями только для 28% респондентов из организаций, широко внедряющих ИИ, и 42% респондентов, внедряющих ИИ в более ограниченных масштабах. По мнению первой группы, получение доступа к вычислительным и сетевым ресурсам является более серьезным препятствием, чем управление данными и их хранение.
Это свидетельствует о том, что они уже инвестировали в решение этих проблем. «Организации, которые внедряют ИИ в больших масштабах, похоже, лучше сосредоточились на инвестициях в модернизацию систем и технологий, используемых для хранения данных или управления ими», — говорится в отчете.
Успех GenAI зависит от множества факторов. Но учитывая, что в конечном счете ИИ — это процесс, основанный на данных, логично предположить, что поддержание порядка в хранилищах данных повышает шансы на успешное использование ИИ. «Организации должны определить четкий путь для внедрения ИИ-проектов в производство, обеспечивая эффективное управление данными и их хранение, — считают исследователи. — Крайне важно инвестировать в надежный фундамент данных, прежде чем приступать к реализации пилотных проектов в больших объемах. Это поможет обеспечить бесшовную реализацию преимуществ ИИ».