Стремительный взлет DeepSeek R-1 привлек внимание к новому типу моделей ИИ, называемых моделями рассуждений (reasoning model, RM). По мере того как приложения генеративного ИИ выходят за рамки разговорных интерфейсов, RM, вероятно, будут расширять свои возможности и применение, сообщает портал BigDATAwire.
Модель рассуждений — это тип большой языковой модели (LLM), которая может выполнять сложные задачи рассуждения. Вместо того чтобы быстро генерировать результат, основываясь исключительно на статистической догадке о том, каким должно быть следующее слово в ответе, как это обычно делает LLM, RM тратит время на то, чтобы разбить вопрос на отдельные шаги и проработать «цепочку мыслей», чтобы прийти к более точному ответу. Таким образом, RM гораздо больше похожа на человека в своем подходе.
OpenAI представила свои первые RM, получившие название o1, в сентябре 2024 г. Компания объяснила, что использовала методы обучения с подкреплением (RL) для обучения RM, чтобы она могла решать сложные задачи в области математики, естественных наук и кодирования. Модель справилась с задачами по физике, химии и биологии на уровне аспирантов, а по математике и кодированию превзошла способности аспирантов.
По мнению OpenAI, по сравнению с более ранними языковыми моделями, RM решают задачи более похожим на человеческий способом.
«Подобно тому, как человек может долго думать, прежде чем ответить на сложный вопрос, o1 использует цепочку мыслей при попытке решить задачу, — поясняет OpenAI. — Благодаря обучению с подкреплением o1 учится оттачивать свою цепочку мыслей и совершенствовать используемые стратегии. Учится распознавать и исправлять свои ошибки. Учится разбивать сложные шаги на более простые. Учится пробовать другой подход, когда текущий не работает. Этот процесс значительно улучшает способность модели рассуждать».
По словам Куша Варшни, почетного сотрудника IBM, RM могут сами себя проверять на правильность, что представляет собой тип «метапознания», которого раньше не существовало в ИИ. «Мы начинаем вкладывать мудрость в эти модели, и это огромный шаг», — отмечает он.
За такой уровень когнитивных возможностей приходится платить, особенно во время выполнения. OpenAI, например, берет за o1-mini в 20 раз больше, чем за GPT-4o mini. И хотя o3-mini на 63% дешевле o1-mini в пересчете на токен, она все равно значительно дороже GPT-4o-mini, что отражает большее количество токенов, называемых токенами рассуждений, которые используются в процессе рассуждений по «цепочке мыслей».
Это одна из причин, по которой появление DeekSeek R-1 стало таким прорывом: она значительно снизила требования к вычислениям. Компания, стоящая за DeepSeek, утверждает, что обучила свою модель V-3 на небольшом кластере старых GPU, что обошлось всего в 5,5 млн. долл., что гораздо меньше, чем сотни миллионов, которые, по сообщениям, потребовались для обучения новейшей модели GPT-4 от OpenAI. А при цене в 55 центов за миллион входных токенов DeepSeek R-1 стоит примерно вдвое дешевле OpenAI o3-mini.
Удивительный взлет DeepSeek-R1, которая по результатам выполнения математических, кодовых и научных задач сравнялась с моделью OpenAI o1, заставляет исследователей пересмотреть свой подход к разработке и масштабированию ИИ. Вместо того чтобы стремиться к созданию все более крупных LLM с триллионами параметров и обучением на огромных объемах данных, собранных из различных источников, успех, который мы наблюдаем с такими моделями рассуждений, как DeepSeek R-1, говорит о том, что более эффективным подходом может быть создание большого количества небольших моделей, обученных с использованием архитектуры «смеси экспертов» (mixture of experts, MoE).
Генеральный директор Databricks Али Годси всегда быстро реагирует на стремительные изменения. «Ситуация явно изменилась. Даже в крупных лабораториях все усилия сосредоточены на этих рассуждающих моделях, — говорит он. — Они больше не фокусируются на законах масштабирования, не обучают гигантские модели. Они на самом деле делают ставку на рассуждения».
Рост DeepSeek и моделей рассуждений также повлияет на спрос на процессоры. Как отмечает Годси, если рынок откажется от обучения все более крупных LLM, которые являются универсальными специалистами, и перейдет к обучению небольших RM, которые были получены из массивных LLM и усовершенствованы с помощью методов RL, чтобы стать экспертами в специализированных областях, это неизбежно повлияет на тип необходимого оборудования.
«Размышления просто требуют других типов чипов, — говорит он. — Для этого не нужны сети, в которых соединены все эти GPU. У вас может быть один дата-центр здесь, другой — там. Вы можете разместить по несколько GPU и там, и здесь. Игра изменилась».
Производитель графических процессоров Nvidia осознает, что это может повлиять на ее бизнес. Компания уже рекламирует производительность линейки графических процессоров для ПК RTX
RM, конечно, не единственная игра в городе. По-прежнему вкладываются значительные средства в создание конвейеров с расширенной выборкой (RAG), чтобы предоставлять LLM данные, отражающие нужный контекст. Многие организации работают над включением в качестве источника знаний графовых баз данных, которые могут быть введены в LLM, что известно как подход GraphRAG. Многие организации также планируют доработать и обучить Open Source-модели, используя собственные данные.
Однако внезапное появление на сцене ИИ моделей рассуждений определенно встряхнуло ситуацию. Поскольку темпы развития ИИ продолжают ускоряться, представляется вероятным, что подобные сюрпризы и потрясения будут происходить все чаще. Это может сделать поездку ухабистой, но в конечном итоге приведет к созданию ИИ, который станет более дееспособным и полезным, а это в конечном итоге хорошо для всех нас.