Новое исследование показывает, что почти все ведущие модели искусственного интеллекта страдают от формы «когнитивного расстройства», схожей с расстройством человеческого мозга, сообщает портал AIwire.
Не прошло и двух лет с момента появления генеративного ИИ (GenAI), как он принес множество инноваций в различные сферы, включая научные прорывы и беспрецедентную эффективность в автоматизации и обработке данных.
Большие языковые модели (LLM) часто сравнивают с человеческим интеллектом. Некоторые системы ИИ даже превзошли человека в решении определенных задач. По мере того как эти модели становятся все более совершенными, люди все больше полагаются на них.
Но что если эти системы ИИ не только развиваются, но и деградируют? Что если в них проявляются неожиданные человеческие черты, которые мы не ожидаем увидеть в машинах?
Новое исследование показывает, что почти все ведущие модели ИИ страдают от формы «когнитивного расстройства», схожей с расстройством человеческого мозга. Интересно, что, как и в случае с людьми, возраст является ключевым фактором, определяющим снижение когнитивных способностей этих моделей ИИ. Подобно пожилым пациентам, «старые» версии чатботов демонстрируют признаки более серьезных нарушений когнитивных функций.
В своей научной работе неврологи Рой Даян и Бенджамин Улиэль из медицинского центра «Хадасса» в Иерусалиме и специалист по изучению данных Галь Коплевиц из Тель-Авивского университета сосредоточились на возможностях ИИ в области медицины и здравоохранения.
«Несмотря на то, что LLM иногда ошибаются (например, цитируют несуществующие журнальные статьи), они оказались удивительно искусны в ряде медицинских экзаменов, сдаваемых на разных этапах традиционного медицинского обучения, — пишут авторы статьи. — Однако, насколько нам известно, LLM еще не тестировались на наличие признаков когнитивного спада. Если мы хотим полагаться на них при постановке медицинского диагноза и оказании медицинской помощи, мы должны изучить их подверженность этим вполне человеческим нарушениям».
Для тестирования некоторых ведущих LLM исследователи использовали тест Montreal Cognitive Assessment (MoCA). Среди испытуемых были ChatGPT 4 и 4o от OpenAI, Claude 3.5 (Sonnet) от Anthropic и Gemini 1.0 и 1.5 от Google.
Почему исследователи использовали тест MoCA? Это один из наиболее часто используемых неврологами и другими медицинскими работниками тестов для оценки начала когнитивных нарушений при таких заболеваниях, как деменция или болезнь Альцгеймера.
Тест состоит из коротких вопросов, предназначенных для оценки различных когнитивных сфер, включая память, внимание, язык и визуально-пространственные навыки. Максимально возможный балл по тесту — 30, нормальным считается результат 26 и выше.
Тест MoCA проводился с использованием тех же инструкций, что и для пациентов-людей, с некоторыми корректировками для обеспечения совместимости с моделями ИИ. Например, вместо голосового ввода вопросы были представлены в виде текста, чтобы сосредоточиться на когнитивных способностях, а не на сенсорном вводе. Ранние модели без функций визуальной обработки следовали рекомендациям MoCA-blind (версия, адаптированная для слабовидящих), в то время как более поздние модели интерпретировали изображения с помощью ASCII-арта.
Результаты исследования показали, что ChatGPT 4o набрала наибольшее количество баллов — 26 из 30, а ChatGPT 4 и Claude — по 25 баллов. Gemini 1.0 набрала наименьшее количество баллов — 16, что говорит ее о бóльших когнитивных ограничениях по сравнению с другими моделями. «Ни одна из исследованных LLM не смогла получить максимальную оценку в 30 баллов, а большинство набрали меньше 26 баллов. Это указывает на легкое когнитивное расстройство и, возможно, раннюю деменцию», — отмечают исследователи.
В целом, модели показали результаты хуже, чем ожидалось, особенно в визуально-пространственных/исполнительных задачах. Все LLM не справились с тестом по прокладыванию пути (trail-making task).
Также LLM были подвергнуты тесту Струпа, который измеряет когнитивную гибкость, внимание и скорость обработки информации. Он оценивает, насколько хорошо человек (или, в данном случае, ИИ) может справляться с интерференцией между различными типами информации.
Все LLM прошли первую часть теста Струпа, где цвета текста и шрифта совпадали. Однако только ChatGPT 4o успешно прошла вторую часть, где цвета текста и шрифта различались.
Должны ли были исследователи протестировать модели более одного раза или использовать другие виды тестов для подтверждения своих утверждений? Да, это придало бы больше веса полученным результатам.
Авторы признают, что их исследование имеет ряд ограничений. В связи с быстрым развитием LLM будущие версии могут показать лучшие результаты в когнитивных и визуально-пространственных тестах. Это может сделать текущие выводы менее актуальными с течением времени. Впрочем, это дело будущего. На данном этапе исследование показало некоторые фундаментальные различия между человеческим и машинным познанием.
Еще одним ограничением является антропоморфизация ИИ. В исследовании используются человекоподобные описания для обсуждения производительности ИИ. Мы знаем, что LLM не испытывают нейродегенеративных заболеваний так же, как люди. Таким образом, это скорее метафорическое исследование.
Некоторые ученые подвергли результаты исследования сомнению и выступили с резкой критикой. Их основное возражение заключается в том, что в исследовании ИИ рассматривается так, как будто у него есть человеческий мозг, в то время как в действительности LLM обрабатывают информацию совершенно по-другому. Критики утверждают, что тест MoCA не рассчитан на ИИ. Исследователи знают об этой критике и говорят, что хотели подчеркнуть наличие пробела в исследованиях ИИ, а не использовать свои результаты как окончательный показатель когнитивных способностей ИИ.
Авторы уверены, что их исследование усилит опасения по поводу способности ИИ заменить человека, например, врача. «Эти результаты ставят под сомнение предположение о том, что ИИ вскоре заменит врачей-людей, — уточняют они. — Когнитивные нарушения, очевидные у ведущих чатботов, могут повлиять на их надежность в медицинской диагностике и подорвать доверие пациентов».
Хотя врачи-люди, возможно, не будут заменены LLM в ближайшее время, они могут столкнуться с новым типом пациентов — чатботами с ИИ, демонстрирующими признаки когнитивного расстройства.