Те же усилия, которые были направлены на оптимизацию облачных систем для цифрового контекста, теперь должны быть повторены для оптимизации облачных систем для искусственного интеллекта, пишет на портале The New Stack Майк Хикс, главный аналитик по решениям Cisco ThousandEyes.
Сегодня облачные операции в большинстве своем являются зрелыми. Предприятиям комфортно работать с облаком: у него есть определенная операционная роль, а также достаточная поддержка в виде лучших архитектурных практик, сообщества, знаний, видимости и автоматизации для оптимального запуска большинства цифровых приложений и рабочих нагрузок в публичных, частных или гибридных облачных средах.
Более того, облачные технологии стали ключом к широкому доступу к ИИ. В прошлые годы лишь немногие частные компании имели доступ к высокопроизводительным вычислительным мощностям, необходимым для выполнения рабочих нагрузок генеративного ИИ. Облако оказывается великим уравнителем, делая этот уровень вычислений и использующие его сервисы ИИ доступными для всех желающих.
Но за это приходится платить. Плата не обязательно финансовая, хотя и она является одним из факторов принятия решений. Более серьезная цена — подходы к оптимизации облачных вычислений. Проще говоря, повсеместное и интенсивное внедрение ИИ заставляет организации выходить за пределы своих зон комфорта, когда речь идет о конфигурациях облачных сред. Чтобы снова почувствовать себя комфортно в облаке, необходимы целенаправленные действия.
Понимание особенностей ИИ
Чтобы понять, почему устоявшиеся нормы облачных операций подвергаются испытаниям, необходимо сначала разобраться в характере рабочих нагрузок ИИ, которые сегодня предлагается выполнять в облаке.
Рабочие нагрузки ИИ являются мощными как с точки зрения ценности, которую они могут принести предприятиям, так и с точки зрения вычислительных ресурсов, необходимых для их масштабного выполнения.
Это будет только усиливаться по мере того, как агентный ИИ будет становиться доминирующим типом ИИ, распространенным в корпоративных средах. Агентный ИИ означает более тесную интеграцию технологий ИИ в бизнес-процессы, когда автономные или полуавтономные программные агенты управляют ключевыми процессами или их частями для достижения конкретных целей. Такие системы могут быстро принимать решения, справляться со сложными задачами и адаптироваться к меняющимся обстоятельствам, при условии что базовые системы являются достаточно производительными, но об этом мы еще поговорим.
Предприятиям необходимо знать, что агентный ИИ более интерактивен, чем другие формы ИИ — он постоянно «разговаривает» с исходными системами, хранилищами данных, внешними инструментами, базами данных и API, что делает его более чувствительным к задержкам. Сбой облака или связи может привести к тому, что управляемый агентом процесс не сможет запуститься или достичь намеченных целей.
Главное, что нужно понимать о рабочих нагрузках ИИ, — это то, что их характеристики отличаются от тех, которые сегодня используются для определения операционных параметров облака. Это означает, что решения, принятые ранее для обеспечения оптимальной работы цифрового приложения или рабочей нагрузки в облаке, не всегда применимы к ИИ. Сегодняшние облачные системы не рассчитаны на удовлетворение совершенно иных требований, да это и не планировались.
Очевидно, что те же усилия, которые были направлены предприятиями на оптимизацию облачных систем для цифрового контекста, теперь должны быть повторены для оптимизации облачных систем для ИИ.
Предприятиям предстоит понять и зафиксировать характеристики различных рабочих нагрузок ИИ, чтобы создать и настроить поддерживающую облачную инфраструктуру в соответствии с меняющимися требованиями к производительности.
Как это будет выглядеть в облаке
Для большинства предприятий ИИ и исходные системы, к которым он обращается, работают в нескольких облаках, центрах обработки данных и в сложной сети собственных и несобственных каналов связи.
Не все сервисы ИИ будут доступны в локальном регионе или зоне, что может стать решающим фактором при выборе предприятием модели ИИ.
С точки зрения операционной эффективности предприятиям необходимо определить, где расположена инфраструктура, на которой базируются сервисы ИИ и их пользователи, чтобы понять, сможет ли облачная среда поддерживать эти требования или потребуются изменения.
Это включает в себя понимание степени воздействия ИИ на «общую» инфраструктуру, например, когда большой объем трафика направляется по одной оптоволоконной линии или через одну точку агрегации, например, точку присутствия в дата-центре высокой плотности, где сосредоточено большое количество поставщиков ИИ-сервисов. Такой риск концентрации и единых точек отказа может превысить допустимые внутренние риски, учитывая все более важную роль ИИ.
Предприятия должны понимать, как работает каждый провайдер или часть цепочки предоставления ИИ-сервисов. Как провайдер распределяет приоритеты трафика в определенных точках транзита или передачи? Выполняют ли они собственную балансировку нагрузки? Как это повлияет на предоставление ИИ-сервисов? Ответы на эти вопросы могут дать предприятиям повод пересмотреть архитектуру своих облачных систем, чтобы диверсифицировать маршруты трафика и улучшить возможности резервирования.
Эти решения повлияют на эффективность работы. Время отклика в 50 мс может быть приемлемым для базового приложения генеративного ИИ, например, когда пользователь задает вопрос и ожидает контекстного ответа. Но для нагруженной системы агентного ИИ, если каждый ответ на запрос занимает 50 мс, это время быстро увеличится. В результате пользователи могут столкнуться с чрезмерным временем транзакций, таймаутами или другими проблемами, связанными с перегрузкой и задержками.
Предприятия могут повысить эффективность работы, заблаговременно выявив возможности оптимизации трафика и использования облачных ресурсов.