В недавнем отчете Goldman Sachs говорится, что отсутствие «убийственного приложения» для генеративного ИИ (GenAI), помимо чат-ботов и «вторых пилотов», может помешать его внедрению. Аналитики пишут, что GenAI нуждается в приложениях, которые могут самостоятельно выполнять действия. Портал Datanami обсуждает, может ли для этого подойти новый тип моделей, получивший название «большая модель действий» (large action model, LAM).
Концепция LAM начала развиваться в конце 2023 г. как естественное продолжение больших языковых моделей (LLM), которые привлекли внимание всего мира благодаря человекоподобным текстовым ответам, которые они могут генерировать. LAM выходят за рамки возможностей LLM по генерации текста, фактически выполняя некоторые действия в различном ПО.
«LLM хороши для одностороннего взаимодействия типа „Вот мой вопрос, ответьте мне“, — говорит Панкадж Чавла, директор по инновациям технологической консалтинговой компании 3Pillar. — Но что мне делать с этим ответом? Вот тут-то и проявляется магия LAM».
По его словам, LAM нужны компаниям, которые видят ценность LLM, но хотят сделать следующий шаг и автоматизировать повторяющиеся задачи, чтобы добиться более высокой отдачи от своих инвестиций. LAM выполняют действия, используя существующие программные пути, такие как API, или, в некоторых случаях, взаимодействуя непосредственно с пользовательским интерфейсом приложения, что похоже на роботизацию процессов (RPA).
Например, для руководителей, часто отправляющихся в деловые поездки, можно создать LAM, которая будет отвечать на запросы типа «Найдите мне билеты эконом-класса и четырехзвездочный отель в Милане с 10 по 17 октября». LAM может не только отвечать на этот запрос предложениями, но и перемещаться по необходимым системам и вызывать нужные данные, чтобы обеспечить бронирование.
Другой взгляд на LAM — они подхватывают то, на чем останавливаются «вторые пилоты». «На мой взгляд, со „вторым пилотом“ вы все еще взаимодействуете как человек и при этом не соединяете вместе несколько действий, чтобы достичь результата для бизнеса или лично для себя, — говорит Панкадж Чавла. — „Второй пилот“ лишь немного продвигается в этом направлении, тогда как LAM — это создание самообучающегося скрипта, который по мере того, как выполняет некое действие в очередной раз, становится в нем лучше».
Не все компании используют одну и ту же терминологию. Gartner, например, называет это нейросимвольным ИИ, который представляет собой сочетание нейронных сетей и символьного программирования (т. е. традиционного детерминированного программирования).
Amazon и ее дочерняя компания AWS вложили значительные средства в разработку так называемых полуавтономных агентов, которые не ограничиваются кодирующими «вторыми пилотами», а выполняют базовые задачи кодирования. Энди Джасси, бывший глава AWS, сменивший Джеффа Безоса два года назад, недавно заявил, что эти агенты позволили компании сэкономить 4500 лет работы разработчиков по поддержанию Java-кода.
Еще один пример LAM — Rabbit r1, персональный помощник на базе GPT-3.5, реализующий интерфейс в стиле LAM для автоматического взаимодействия с некоторыми сайтами, включая Spotify, Apple Music, Midjourney, Suno, Uber и DoorDash.
Apple Intelligence, которая в настоящее время находится в предварительной версии, является еще одним примером системы типа LAM, как и то, что Salesforce делает со своим пакетом корпоративных вычислений, отмечает Панкадж Чавла: «Salesforce говорит об использовании LAM для закулисной работы с данными для выполнения ряда действий, например, запуска кампании и отслеживания результатов».
В июле McKinsey опубликовала отчет «Why agents are the next frontier of generative AI», в котором восхваляется потенциал агентов в качестве основы для следующего поколения GenAI. «Мы начинаем эволюцию от инструментов, основанных на знаниях и использующих GenAI — например, чат-ботов, которые отвечают на вопросы и генерируют контент, — к GenAI-агентам, которые используют базовые модели для выполнения сложных многоэтапных рабочих процессов в цифровом мире, — пишут аналитики. — Одним словом, технология переходит от слов к действиям».
По мнению McKinsey, ИИ-агенты смогут автоматизировать «сложные и открытые сценарии использования» благодаря трем характеристикам, которыми они обладают: способности управлять множеством объектов, способности управлять с помощью естественного языка и способности работать с существующими программными инструментами и платформами.
Эти «сверхэффективные виртуальные коллеги», как их называет McKinsey, могут вскоре появиться в таких специфических областях, как андеррайтинг кредитов, документирование и модернизация кода и создание маркетинговых кампаний в Интернете.
«Хотя технология агентов еще только зарождается, рост инвестиций в эти инструменты может привести к тому, что в ближайшие несколько лет агентные системы достигнут заметных успехов и будут развернуты в широких масштабах», — считает McKinsey.
Панкадж Чавла признает, что на данный момент создание автоматизированных приложений с архитектурой LAM сопряжено с некоторыми трудностями. LLM являются вероятностными и иногда могут сойти с рельсов, поэтому важно поддерживать их на должном уровне, сочетая с классическим программированием с использованием детерминированных методов.
3Pillar в настоящее время разрабатывает LAM-приложение, которое взаимодействует с людьми и задает им вопросы, но LLM иногда сбивается с пути или предлагает что-то неправомерное. «Таким образом, детерминированное программирование удерживает его на верном пути, держит его в рамках, но при этом используются возможности LLM, — говорит Панкадж Чавла. — Мы запускаем графы знаний за кулисами, так что ... ответы получаются гораздо более сфокусированными, точными и не галлюцинируют, потому что не идут вразрез с набором данных».
По его словам, лучшим испытательным полигоном для LAM могут стать бэк-офисные приложения, поскольку они не подвергают компанию такой большой ответственности, если LLM сходит с рельсов. Интегрированные ERP-системы от крупных софтверных компаний имеют доступ к большому количеству межотраслевых данных и междисциплинарных рабочих процессов, которые будут служить основой для LAM и агентного ИИ.
Сегодня LAM — это лишь архитектурная концепция, но со временем она будет доработана, и появятся программные фреймворки, которые компании смогут использовать для ускорения разработки LAM и агентных ИИ-систем. «Я думаю, что появится больше фреймворков, которые позволят вам получить готовые интеграции, вызовы, все, что касается широко используемых систем, подобно современным адаптерам для корпоративных сервисных шин, — говорит Панкадж Чавла. — То есть могут быть адаптеры для СУБД для того-то и того-то и API, которые доступны для выполнения действий, а затем фреймворки для фактического построения и выполнения этих действий с помощью конфигурации и „укажи и щелкни“, а не кодирования».
Потенциальные возможности LAM и автономных ИИ-агентов действительно огромны, и это всего лишь вопрос времени, когда потребители начнут видеть их в природе, считает он: «На горизонте ближайших двух-пяти лет появятся приложения, которые являются настоящими решениями, управляемыми ИИ, где чат-бот и LLM — это просто строительные блоки».