Новое исследование свидетельствует об очень низком уровне готовности агентов искусственного интеллекта к выполнению реальных задач, сообщает портал The Neuron.
Ажиотаж: ИИ-агенты автоматизируют все рабочие процессы! Заменят фрилансеров! Будут выполнять сложные задачи от начала до конца!
Реальность: жалкие
Scale AI и CAIS только что опубликовали Remote Labor Index — тестирование, в котором ИИ-агенты пытались выполнить реальные задачи фрилансеров. Самая эффективная модель заработала всего 1810 долл. из 143 991 долл. доступной работы, выполнив лишь
Этот тест — столь необходимая проверка реальности для отраслей, тратящих невообразимые миллиарды, как злодеи из фильмов о Бонде, на гипотезу, что ИИ автоматизирует всю работу. И он позволил получить полезные данные.
Исследователи протестировали реальные задачи с фриланс-платформ. Не игрушечные проблемы или академические тесты, а реальные задания, за выполнение которых людям платят: написание текстов, исследования, ввод данных и дизайнерские задачи.
С чем агенты испытывают трудности:
- многоэтапные рабочие процессы с неясными передачами;
- неясные требования, которые мы, люди, уточняем в ходе разговора;
- задачи, требующие суждения и контекста;
- работа, требующая итерации и обратной связи с клиентом.
Что реально могут делать агенты: в производственных средах небольшие точно настроенные модели хорошо справляются с повседневными повторяющимися задачами, а более крупные модели координируют рабочие процессы или обрабатывают крайние случаи. Такие конфигурации работают, но они ограничены и требуют контроля со стороны человека.
Эти агенты также имеют скрытые затраты. Недавний анализ Rate Limited показывает, что «бесплатные» кодирующие агенты не обходятся без издержек: ограничения скорости, задержки, проверки безопасности и доработки. Вам нужны ограждения и бюджеты, а не слепая автоматизация.
Контраргумент: новое исследование, которое показывает, что 74% компаний, которые действительно измеряют отдачу от инвестиций в генеративный ИИ, сообщают о положительной доходности.
Почему это важно: мы находимся в странном промежуточном положении. ИИ может впечатляюще расширить возможности работы, но пока не может заменить квалифицированных людей в решении сложных задач (проблема среднего уровня). Понимание этого разрыва помогает сформировать реалистичные ожидания.
Что нас ждет: улучшенные архитектуры агентов, более жесткие рабочие процессы с участием человека и специализированные агенты для узких областей. Прогресс происходит, просто он не происходит (успешно) так быстро, как хотят, чтобы вы думали компании, занимающиеся ИИ.
Вывод: если кто-то продает вам полностью автономных ИИ-работников, попросите показать вам показатели выполнения реальных задач, которые вы выполняете каждый день... или не покупайте их.
































