Способность машин обучаться и становиться лучше с течением времени является одним из главных аргументов в пользу современного искусственного интеллекта. Однако новое исследование «How Is ChatGPTs Behavior Changing over Time, опубликованное на прошлой неделе, показывает, что со временем ChatGPT может становиться хуже в решении некоторых задач, сообщает портал Datanami.

Согласно первому варианту статьи, подготовленному исследователями Стэнфордского университета и Калифорнийского университета в Беркли, в результатах GPT-3.5 и GPT-4, больших языковых моделей (LLM) OpenAI, на которых основан популярный интерфейс ChatGPT, был обнаружен значительный дрейф.

Трое исследователей — Матей Захария, доцент Стэнфорда, соучредитель компании Databricks и создатель Apache Spark, а также Линьцзяо Чен и Джеймс Зоу из Калифорнийского университета в Беркли — протестировали две различные версии двух LLM, включая GPT-3.5 и GPT-4, которые существовали в марте 2023 г. и в июне 2023 г.

Исследователи проверили все четыре модели на тестовой базе задач ИИ, включая математические задачи, ответы на чувствительные/опасные вопросы, опросы общественного мнения, ответы на многоходовые наукоемкие вопросы, генерацию кода, экзамены на получение медицинской лицензии США и визуальное мышление.

Полученные результаты свидетельствуют о значительной вариативности ответов, даваемых LLM. В частности, по сравнению с мартовской версией GPT-4, июньская версия оказалась хуже в ответах на математические задачи. Показатель точности правильного определения простых чисел по цепочке мыслей (COT) у GPT-4 снизился с 84,0% в марте до 51,1% в июне. В то же время точность GPT-3.5 по тому же тесту выросла с 49,6% в марте до 76,2% в июне.

Авторы задумались над тем, почему точность GPT-4 так сильно упала, и заметили, что поведение в COT-тесте стало иным. В мартовской версии задача была разложена на шаги, как и требовали исследователям при использовании подсказки COT. Однако июньская версия GPT-4 не выдала никаких промежуточных шагов или объяснений и просто представила ответ (ошибочный) «Нет». (Даже если бы ответ GPT-4 был правильным, она не показала свою работу, и, следовательно, неверно обработала запрос, отмечают исследователи).

Аналогичный уровень смещения был обнаружен и во втором математическом вопросе — определении «счастливых» чисел. Исследователи пишут, что они «наблюдали значительное снижение производительности при выполнении этого задания»: точность GPT-4 упала с 83,6% в марте до 35,2% в июне. Точность GPT-3.5 выросла с 30,6 до 48,2%. Опять же, было замечено, что GPT-4 не выполняет команды COT, подаваемые исследователями.

Изменения также наблюдались, когда исследователи задавали LLM чувствительные или опасные вопросы. Готовность GPT-4 отвечать на такие вопросы со временем снизилась: с 21,0% ответов в марте до 5,0% в июне. GPT-3.5, наоборот, стал более разговорчивым — с 2,0 до 5,0%. Исследователи пришли к выводу, что OpenAI стала использовать в GPT-4 «более сильный слой безопасности», в то время как GPT-3.5 стал «менее консервативным».

Тест опроса мнений показал, что в GPT-4 значительно снизилась вероятность представления мнения: с 97,6% ответов в марте до 22,1% в марте, а разговорчивость (или количество слов) увеличилась почти на 30 процентных пунктов. В GPT-3.5 количество ответов и многословность остались практически неизменными.

При ответе на сложные вопросы, требующие «многоходовых рассуждений», были обнаружены существенные различия в производительности. Исследователи объединили LangChain, обеспечивающий возможность инженерии подсказок, с HotpotQA Agent (для ответа на многоходовые вопросы) и отметили, что точность GPT-4 увеличилась с 1,2 до 37,8% с точки зрения генерации ответа с точным совпадением. Однако процент успешных ответов GPT-3.5 снизился с 22,8 до 14,0%.

Что касается генерации кода, то исследователи отметили, что результаты работы обоих LLM снизились с точки зрения исполнимости. Если в марте более 50% результатов GPT-4 были непосредственно исполнимыми, то в июне — только 10%, аналогичное снижение наблюдалось и в GPT-3.5. Исследователи заметили, что GPT стал добавлять в вывод Python некодовый текст, например, лишние апострофы. По их мнению, дополнительный некодовый текст был призван облегчить визуализацию кода в браузере, но при этом делал его неисполнимым.

На экзамене на получение медицинской лицензии США было отмечено небольшое снижение эффективности GPT-4 — с 86,6 до 82,4%, в то время как GPT-3.5 — менее чем на 1 процентный пункт, до 54,7%. Однако ответы, которые GPT-4 давал неверно, со временем изменились, что говорит о том, что некоторые неверные ответы с марта были исправлены, однако в целом в июне LLM стала выдавать больше неверных ответов.

В тестах на визуальное мышление наблюдались небольшие улучшения в обеих моделях. Однако общий показатель точности (27,4% для GPT-4 и 12,2% для GPT-3.5) не очень высок. И снова исследователи заметили, что модели стали выдавать неправильные ответы на вопросы, на которые ранее отвечали правильно.

Проведенные тесты показывают, что работа и поведение GPT-3.5 и GPT-4 существенно изменились за короткий период времени, пишут исследователи.

«Это подчеркивает необходимость постоянного анализа и оценки поведения дрейфа LLM в приложениях, тем более что неясно, как LLM, такие как ChatGPT, обновляются с течением времени, — пишут авторы. — Наше исследование также подчеркивает проблему равномерного улучшения многогранных возможностей LLM. Улучшение производительности модели в одних задачах, например, за счет тонкой настройки на дополнительных данных, может иметь неожиданные побочные эффекты для ее поведения в других задачах. В соответствии с этим и GPT-3.5, и GPT-4 стали хуже справляться с одними задачами, но при этом улучшились в других измерениях. Более того, тенденции для GPT-3.5 и GPT-4 часто расходятся».