Искусственный интеллект может быть приоритетом для компаний, но трудности с управлением данными и получением высококачественных данных для обучения моделей ИИ становятся все бóльшим препятствием на пути к достижению целей применения ИИ, говорится в новом отчете Appen «2024 State of AI Report: Navigate the Evolving AI Landscape», сообщает портал BigDATAwire.

ИИ зависит от данных. Независимо от того, обучаете ли вы собственную модель, дорабатываете чужую модель или используете методы RAG (генерация с расширенным поиском) с уже готовой моделью, для успешного внедрения ИИ необходимо предоставить данные — желательно, много чистых и качественных данных.

Как поставщик решений для маркировки и аннотирования данных, Appen имеет возможность наблюдать из первого ряда за проблемами обеспечения надлежащих данных, с которыми сталкиваются организации при создании и развертывании решений ИИ. Компания документирует эти проблемы в своем ежегодном отчете о состоянии ИИ-ландшафта, который выходит уже в четвертый раз.

Согласно отчету 2024 г., основанному на результатах опроса более 500 руководителей, принимающих ИТ-решения в американских компаниях, и проведенного Harris Poll в начале этого года, проблемы с данными для ИИ достигли нового максимума.

Например, средняя точность данных, как сообщили участники опроса, снизилась за последние четыре года на 9 процентных пунктов, говорится в отчете. А недостаточная доступность данных выросла на 6% с тех пор, как Appen выпустила отчет за 2023 г.

Качество данных падает (источник: отчет Appen «2024 State of AI»)

По словам Си Чен, вице-президента Appen по стратегии, снижение качества и доступности данных может быть связано с тем, что за последние два года произошел сдвиг от более простых проектов машинного обучения, построенных на структурированных данных, к более сложным проектам генеративного ИИ (GenAI), построенным на неструктурированных данных.

«Сейчас мы видим много неструктурированных данных. Они не очень стандартизированы, — отмечает Чен. — Для создания таких наборов данных часто требуются специальные знания и опыт в предметной области. И я думаю, что именно это является причиной некоторого снижения точности данных. Просто потому, что данные, которые сегодня нужны людям, гораздо сложнее, чем раньше».

В своем отчете Appen также обращает внимание на возникающие «узкие места» в конвейере ИИ-данных. Компании сталкиваются с трудностями на разных этапах, будь то получение доступа к данным, умение надлежащим образом управлять данными или наличие технических ресурсов для работы с данными. В целом Appen отслеживает увеличение с 2023 г. на 10 процентных пунктов числа узких мест, связанных с поиском, очисткой и маркировкой данных.

Узких мест в работе с данными становится все больше (источник: отчет Appen «2024 State of AI»)

Хотя сложно выделить какую-то одну причину такого снижения, Чен полагает, что одной из главных причин может быть общее увеличение числа ИИ-инициатив, к которым приступают организации. «Во многом это может быть связано с тем, что сейчас разрабатываются все более разнообразные сценарии использования, — говорит она, — и каждый конкретный сценарий, который вы разрабатываете на предприятии, требует специальных данных для его поддержки».

По словам Чен, такое многообразие означает, что для построения соответствующих моделей необходимо убедиться в наличии надежного конвейера данных, который позволит все это организовать. «Существует целый ряд шагов, связанных с данными для каждого отдельного сценария использования. Поэтому по мере того, как все больше людей внедряют эти модели, они могут столкнуться с тем, что все это не всегда укладывается в существующие конвейеры данных», — поясняет она.

Чен отмечает, что организации, обладающие конвейерами данных и навыками для создания традиционных приложений МО на структурированных данных, обнаруживают, что разработка приложений GenAI на неструктурированных данных требует другого типа конвейера данных и других навыков. «Я думаю, что будет небольшой переходный период, — говорит она. — Но это очень увлекательно».

Согласно результатам исследования Appen, с 2023 г. количество сценариев использования GenAI увеличилось на 17%. В этом году такие сценарии используют 56% опрошенных организаций. Наиболее популярным является повышение производительности внутренних бизнес-процессов (53%), в то время как 41% заявили, что используют GenAI для сокращения расходов на ведение бизнеса.

По мере распространения GenAI процент успешных внедрений ИИ снижается, отмечают в Appen. Например, в своем отчете за 2021 г. исследователи сообщили, что в среднем 55,5% ИИ-проектов доходят до развертывания, а в 2024-м этот показатель снизился до 47,4%. Доля ИИ-проектов, получивших «значимый» возврат инвестиций (ROI), также снизилась — с 56,7% в 2021 г. до 47,3% в 2024-м.

По словам Чен, эти цифры отражают проблемы с данными. «Несмотря на большой интерес и работу над различными сценариями использования GenAI, все еще существует множество проблем с точки зрения внедрения, — говорит она. — И данные играют довольно важную роль в том, удастся ли что-то успешно внедрить».

Согласно отчету, существует три основных типа данных, которые организации используют для ИИ. Исследователи обнаружили, что в 27% сценариев используются предварительно маркированные данные, в 30% — синтетические данные, а в 41% — данные, собранные на заказ.

Возможность использовать индивидуальные данные, которые никто не видел раньше, дает сильное конкурентное преимущество, считает генеральный директор Appen Райан Колн. «Существует большой объем общедоступных данных, и они используются всеми разработчиками моделей, — говорит он. — Но настоящее конкурентное преимущество GenAI — это возможность доступа к индивидуальным данным. Мы видим, что это очень конкурентный подход к тому, как находить и получать индивидуальные данные. И мы видим, что реальные данные, собранные людьми, становятся важной частью этого корпуса данных».