Инновационный потенциал гораздо выше в мире, где модели искусственного интеллекта работают на потребительском оборудовании. Это имеет значительные последствия для разработчиков, пишет на портале The New Stack Хавьер Редондо, инвестор из Scale Venture Partners.

Представьте себе мир, в котором одно устройство выступает в качестве пользовательского интерфейса и удаленно подключено ко второму устройству, выполняющему фактические вычисления. Такое было распространено в 1960-х. В офисах и школьных библиотеках можно было встретить телетайпы, используемые для ввода команд и вывода результатов. Выполнение кода было слишком ресурсоемким, чтобы размещать оборудование в каждой комнате. Вместо этого каждый телетайп удаленно подключался к большому компьютеру, разделяющему время работы между многими клиентами.

Современная архитектура генеративного ИИ находится в эпохе телетайпов: приложение запускается на телефоне, но оно зависит от модели, которая может быть размещена только в облаке. Это пережиток прошлого. За несколько десятилетий телетайпы и мейнфреймы уступили место ПК. Точно так же генеративный ИИ в конечном итоге будет работать на аппаратном обеспечении потребительского класса — но этот переход произойдет гораздо быстрее.

И этот переход будет иметь значительные последствия для разработчиков приложений.

Как мы к этому пришли

Вы, вероятно, знаете, что модели генеративного ИИ определяются вычислительными операциями, которые преобразуют входной сигнал (например, подсказку) в выходной (например, ответ). Такие модели задаются миллиардами параметров (они же веса), а это значит, что для создания выходных данных также требуются миллиарды операций, которые могут быть распараллелены на столько ядер, сколько предлагает аппаратное обеспечение. Графические процессоры имеют тысячи ядер, что отлично подходит для запуска моделей генеративного ИИ. К сожалению, поскольку GPU потребительского класса имеют ограниченный объем памяти, они не могут обрабатывать модели размером в десятки гигабайт. В результате рабочие нагрузки генеративного ИИ размещаются в дата-центрах с дорогостоящей сетью промышленных GPU, где ресурсы объединяются.

Мы постоянно слышим, что модели «будут становиться все лучше» и, следовательно, они будут становиться все больше. Мы придерживаемся противоположной точки зрения: действительно, любое скачкообразное изменение в производительности моделей в перспективе может оказаться революционным, но возможность запуска текущего поколения моделей на пользовательских устройствах имеет не менее глубокие последствия — и это возможно уже сегодня.

Почему это важно

Прежде чем обсуждать целесообразность использования локальных моделей, необходимо ответить на один вопрос: зачем это нужно? Если коротко, то локальные модели меняют все для разработчиков генеративного ИИ, и приложения, которые полагаются на облачные модели, рискуют стать устаревшими.

Первая причина заключается в том, что из-за стоимости графических процессоров генеративный ИИ сломал модель почти нулевых предельных издержек, которой пользуется SaaS. Сегодня все, что связано с генеративным ИИ, устанавливает высокую цену за рабочее место просто для того, чтобы сделать продукт экономически жизнеспособным. Этот отрыв от базовой ценности имеет значение для многих продуктов, для которых нет возможности устанавливать оптимальную цену для максимизации дохода. На практике некоторые продукты ограничены минимальным ценовым диапазоном (например, невозможно сделать скидку 50% для 10-кратного объема), а некоторые функции не могут быть запущены, поскольку апсейл не покрывает стоимость вывода (например, ИИ-персонажи в видеоиграх). С локальными моделями цена перестает быть проблемой: они полностью бесплатны.

Вторая причина заключается в том, что пользовательский опыт работы с дистанционными моделями может быть лучше: генеративный ИИ позволяет создавать новые полезные функции, но зачастую это происходит за счет ухудшения опыта. Приложения, которые раньше не зависели от подключения к Интернету (например, фоторедакторы), теперь требуют его. Дистанционный вывод создает дополнительные трудности, такие как задержка. Локальные модели устраняют зависимость от интернет-соединения.

Третья причина связана с тем, как модели обрабатывают пользовательские данные. Это проявляется в двух аспектах. Во-первых, серьезную озабоченность вызывают растущие объемы конфиденциальной информации, передаваемой ИИ-системам. Во-вторых, большинство разработчиков генеративного ИИ были вынуждены использовать общие (они же базовые) модели, поскольку масштабирование распространения персонализированных моделей было слишком сложным. Локальные модели гарантируют конфиденциальность данных и открывают двери для стольких вариантов моделей, сколько существует устройств.

Нужны ли нам триллионы параметров?

Идея о том, что генеративные модели ИИ будут работать локально, может показаться удивительной. С годами размер некоторых моделей, таких как ныне распространенные большие языковые модели (LLM), увеличился до 1+ трлн. параметров. Эти модели (и, возможно, более крупные модели, находящиеся в разработке) не скоро будут работать на смартфонах.

Однако для большинства генеративных приложений требуются модели, которые уже могут работать на потребительском оборудовании. Это происходит в тех случаях, когда передовые модели уже достаточно малы, чтобы поместиться в память устройства, например, в не-LLM приложениях, таких как транскрипция (Whisper c ~1,5 млрд. параметров и т. п.) и генерация изображений (Flux с ~12 млрд. параметров и т. п.). Для LLM это менее очевидно: некоторые из них могут работать на iPhone (например, Llama-3.1-8B), но их производительность значительно хуже, чем у серверных решений.

На этом история не заканчивается. Хотя малые языковые модели меньше знают о мире (то есть больше галлюцинируют) и менее надежны в выполнении инструкций, они уже могут пройти тест Тьюринга (то есть говорить без запинок). Это , по нашему мнению, главное достижение за последний год, резко контрастирующее со слабым прогрессом распространенных LLM. Это результат использования больших наборов данных лучшего качества при обучении и применения таких техник, как квантование, обрезка и дистилляция знаний, для дальнейшего уменьшения размера модели.

Разрыв в знаниях и навыках теперь можно устранить с помощью тонкой настройки — обучения модели тому, как справиться с конкретной задачей, что является более сложной задачей по сравнению с подсказкой распространенной LLM. Известный метод заключается в использовании LLM в качестве тренера. В двух словах, если LLM компетентна в какой-то задаче, она может быть использована для создания множества примеров успешного завершения, и малая модель может учиться на них. До недавнего времени этот метод был неприменим на практике, поскольку условия использования проприетарных моделей, таких как GPT-4, прямо запрещали его. Появление открытых моделей, таких как Llama-3.1-405B, не имеющих подобных ограничений, решает эту проблему.

Наконец, потенциальное беспокойство может вызвать тот факт, что на смену универсальной модели с триллионами параметров придет сотня моделей с десятками миллиардов параметров для каждой конкретной задачи. На самом деле все модели для конкретных задач по сути идентичны. Поэтому метод, называемый LoRA (Low-Rank Adaptation), позволяет использовать «адаптеры», которые могут быть менее 1% от размера базовой модели, которую они модифицируют. Это выигрыш во многих отношениях. В частности, упрощается тонкая настройка (снижаются требования к аппаратному обеспечению), распространение моделей среди конечных пользователей (малый размер адаптеров) и переключение контекста между приложениями (быстрая замена благодаря размеру).

Катализаторы уже здесь

Малые модели, способные обеспечить лучшие в своем классе возможности во всех контекстах (аудио, изображение и язык), появляются одновременно с необходимой экосистемой для их работы.

Что касается аппаратного обеспечения, то здесь Apple лидирует благодаря своим ARM-процессорам. Архитектура была выбрана заранее, благодаря чему устройства под управлением macOS и iOS могли работать с моделями генеративным ИИ еще до того, как они вошли в моду. Они оснащены графическим процессором, способным выполнять вычисления, и памятью с высокой пропускной способностью, которая часто является ограничивающим фактором в плане скорости вычислений.

Apple не одинока, и изменения происходят во всей линейке аппаратного обеспечения. Ноутбуки с сертификатом Microsoft Copilot+ также могут работать с генеративными моделями. В этих машинах используются новые чипы, такие как Snapdragon X Elite от Qualcomm, что свидетельствует о том, что аппаратное обеспечение теперь разрабатывается с учетом возможности локального ИИ-вывода.

Что касается ПО, то, несмотря на то, что PyTorch остается лидером в области облачных технологий, новая серия библиотек предоставляет все возможности для более эффективного использования аппаратных средств потребительского класса. К ним относятся MLX и GGML от Apple. Нативные приложения, такие как альтернативы ChatGPT для устройств, уже используют эти инструменты в качестве бэкэнда, а WASM позволяет любому веб-сайту, загружаемому из браузера, делать то же самое.

Осталось сгладить некоторые нюансы, особенно в отношении того, что разработчики могут ожидать найти на том или ином устройстве. Малые базовые модели все еще занимают несколько гигабайт, что практически не позволяет обеспечить автономию для любого приложения, как веб-, так и нативного. Однако с выходом Apple Intelligence мы ожидаем, что macOS и iOS будут включать и раскрывать LLM внутри ОС. Это позволит разработчикам выпускать для них адаптеры LoRA размером в десятки мегабайт, далее последуют и другие ОС.

Хотя потенциальной проблемой для разработчиков может стать рассогласование моделей, привязанных к разным устройствам, конвергенция, скорее всего, произойдет. Мы не можем сказать наверняка, как это произойдет, но решение Apple в отношении метода DataComp for Language Models (DCLM) заключается в том, чтобы предоставить в открытый доступ как весовые коэффициенты модели, так и набор данных для обучения, что поощряет и позволяет другим обучать модели, которые ведут себя аналогичным образом.

Последствия для разработчиков приложений

Переход на обработку моделей на устройстве имеет значительные последствия для разработчиков приложений.

Во-первых, начнем с предположения о том, что вывод языковой модели бесплатен, что снижает стоимость любых функций генеративного ИИ. Что нового вы сможете создать, и как это повлияет на ваши существующие продукты? Мы прогнозируем три сценария:

  • Если генеративный ИИ является функцией более крупного продукта, он будет более органично вписываться в существующие ценовые уровни SaaS, что поставит его вровень с другими премиальными функциями, способствующими апгрейду.
  • Если генеративный ИИ является основным ценностным предложением, а цена на продукт устанавливается по принципу «затраты плюс» (т. е. затраты определяют цену), то продукты будут дешеветь, но это будет с лихвой компенсировано гораздо большими объемами продаж.
  • Если генеративный ИИ является основным ценностным предложением, а цена продукта определяется ценностью для пользователя (т. е. значительно выше себестоимости), влияние будет ограничено повышением маржи.

Во-вторых, осознайте, что в разработке приложений, особенно тех, которые зависят от языковых моделей, происходят изменения: «инжиниринг подсказок» и «обучение в несколько приемов» уходят в прошлое, теперь на первый план выходит тонкая настройка. Это означает, что организациям, создающим приложения генеративного ИИ, потребуются иные возможности. Преимуществом распространенных LLM было то, что инженеры-программисты были отделены от модели, которая рассматривалась как API, работающий как любой другой микросервис. Это устраняло зависимость от внутренних команд МО-инженеров и специалистов в области науки о данных, которые являются ресурсами, которых у многих организаций не было или, уж точно, не было в том масштабе, который необходим для повсеместного внедрения генеративного ИИ. С другой стороны, эти специалисты необходимы для многих рабочих процессов, которые требуют локальные модели. Хотя инженеры-программисты без опыта работы в области MО действительно повышают уровень своих навыков в этой области, все это означает выход на более высокую ступень. В краткосрочной перспективе создавать продукты будет сложнее, поскольку они потребуют дифференцированных моделей вместо того, чтобы полагаются базовые распространенные LLM. Однако в долгосрочной перспективе малые дифференцированные модели сделают итоговый продукт более ценным.

Это положительные изменения, но преимуществами смогут воспользоваться только те, кто уделят наибольшее внимание динамике кардинальных изменений.

Возможности для инноваций в инфраструктуре

Наконец, переход на локальные модели требует пересмотра технологического стека. Некоторые категории, которые уже существовали в контексте моделей с облачным хостингом, становятся еще более необходимыми, и, возможно, придется расширить их предложение:

  • Фундаментальные модели. Компании, занимающиеся разработкой базовых моделей, начинали с единственной цели — создания лучших в своем классе моделей. Хотя многие из них частично или полностью переключились на создание моделей с наилучшим соотношением цены и производительности, нацеленность на аппаратное обеспечение потребительского класса у них отсутствует. Когда локальные модели станут основным способом потребления, приоритеты сменятся, но предстоит заполнить еще много свободного пространства.
  • Наблюдаемость и защитные ограждения. По мере того как разработчики запускали приложения ИИ в производство, средства массовой информации обращали внимание на их нестабильное поведение (например, галлюцинации, токсичность). Это привело к необходимости создания инструментов, обеспечивающих наблюдаемость и, в некоторых случаях, жесткие ограничения на поведение модели. С распространением распределенных экземпляров моделей эти проблемы усугубляются, и важность таких инструментов возрастает.
  • Синтетические данные и тонкая настройка. Если в эпоху больших моделей тонкая настройка была для многих разработчиков приложений чем-то второстепенным, то при работе с меньшим количеством параметров она окажется на первом месте. Мы уже отмечали, что современные модели с открытым исходным кодом позволяют синтезировать наборы данных для тонкой настройки, и каждый может создать свои собственные конвейеры тонкой настройки. Тем не менее, мы знаем, что людей, необходимых для выполнения этих задач, не хватает, поэтому мы считаем, что синтетические данные и тонкая настройка по требованию — это области, где спрос будет значительно расти.

В то же время требования локальных моделей заставляют нас полагать, что возникнет несколько новых категорий:

  • CI/CD для моделей. Пока мы не знаем, как разработчики будут доставлять модели (или адаптеры моделей) в приложения. Например, будут ли модели поставляться вместе с собственными двоичными файлами приложения, или они будут загружаться из какого-то репозитория при загрузке приложения? В связи с этим возникают и другие вопросы, например, как часто будут обновляться модели и как будет осуществляться версионирование. Мы считаем, что появятся решения, которые решат эти проблемы.
  • Рынок адаптеров. Хотя одна распространенная LLM может обслуживать все приложения, мы установили, что для обеспечения работы малых моделей в разных задачах требуются различные адаптеры. Многие приложения, несомненно, будут полагаться на самостоятельно разработанные адаптеры, но некоторые адаптеры также можно будет использовать во многих приложениях, например, для обобщения и перефразирования. Только некоторые разработчики захотят самостоятельно управлять жизненным циклом разработки и поставки таких стандартных адаптеров.
  • Федеративное выполнение. Хотя это и не совсем новая категория, запуск моделей на потребительском оборудовании — это новая парадигма для тех, кто думает о федеративном MО, то есть о распределенном обучении и выводах. В данном случае внимание уделяется не столько огромным группам устройств, подключенных через Интернет, сколько небольшим кластерам устройств в локальной сети, например, в одном офисе или доме. Мы уже видим инновации, которые позволяют выполнять более трудоемкие вычислительные задачи, такие как обучение или вывод, на моделях среднего размера, распределяя работу между двумя или тремя устройствами.

Заглядывая в будущее

Есть место для будущего, в котором ИИ покинет облако и окажется на пользовательских устройствах. Понимание того, что ингредиенты для реализации этой возможности уже имеются, приведет к созданию более качественных продуктов по более низкой цене. В этой новой парадигме организациям придется обновить стратегии выхода на рынок, организационные навыки и инструментарий разработчиков. Хотя эта эволюция будет иметь значимые последствия, мы не считаем, что это конец истории.

Сегодня ИИ остается в высшей степени централизованным по всей цепочке поставок. Современные графические процессоры разрабатываются только одной компанией, а их выпуск зависит от одного производителя полупроводников. Гиперскейлеров, предоставляющих хостинг для этого оборудования, можно пересчитать по пальцам одной руки, как и поставщиков LLM, к которым прибегают разработчики в поисках современных моделей. Инновационный потенциал гораздо выше в мире, где модели работают на потребительском оборудовании. Этому стоит радоваться.