Искусственный интеллект стремительно меняет ИТ-организации. CIO и другие ИТ-руководители должны переосмыслить и перестроить инфраструктуру, чтобы повысить производительность, отмечают опрошенные порталом InformationWeek эксперты.
В то время как CIO спешат принять и внедрить ИИ, они в конечном итоге сталкиваются с неприятной истиной: их ИТ-инфраструктура не готова к ИИ. От повсеместной нехватки графических процессоров и сетей, подверженных задержкам, до быстро растущей потребности в электроэнергии — они сталкиваются с узкими местами, которые подрывают производительность и увеличивают расходы.
«Неэффективная инфраструктура ИИ может значительно снизить ценность ИИ», — говорит Сид Наг, вице-президент по исследованиям Gartner. «Дефицит высокопроизводительных GPU — это проблема, но есть и другие факторы, включая энергопитание, охлаждение, дизайн и мощность дата-центров, которые влияют на результаты», — добавляет Тереза Тунг, руководитель глобального направления по работе с данными Accenture.
Вывод? Требовательные и ресурсоемкие рабочие нагрузки ИИ требуют от ИТ-руководителей переосмысления способов проектирования сетей, распределения ресурсов и управления энергопотреблением. Те, кто игнорирует эти проблемы, рискуют отстать в гонке ИИ-вооружений и снизить эффективность бизнеса.
Проблемные моменты
Самая очевидная и широко освещаемая проблема — нехватка высокопроизводительных GPU, необходимых для получения выводов и работы моделей ИИ. Например, столь желанные процессоры Nvidia Blackwell, на которых построены серверы GB200 NVL-72, уже несколько месяцев практически невозможно найти, поскольку их расхватывают такие крупные компании, как Amazon, Google, Meta (признана экстремистской и запрещена в РФ) и Microsoft. Но даже если компании удастся приобрести эти устройства, стоимость полностью сконфигурированного сервера может составить около 3 млн. долл. Менее дорогая версия, сервер NVL36, стоит около 1,8 млн. долл.
Нехватка GPU сказывается не только непосредственно на крупных предприятиях, но и на крупных облачных провайдерах, таких как AWS, Google и Microsoft. По словам Нага, они все больше ограничивают выделяемые ресурсы и мощности. Для предприятий последствия этого ощутимы. «В отсутствие адекватной аппаратной инфраструктуры, необходимой для создания моделей ИИ, обучение модели может стать медленным и невыполнимым. Это также может привести к узким местам в данных, которые снижают производительность», — отмечает он.
Однако нехватка GPU — это лишь часть общей головоломки. По мере того как организации пытаются подключить инструменты ИИ для специализированных целей, таких как компьютерное зрение, робототехника или чатботы, они обнаруживают необходимость в быстрой и эффективной инфраструктуре, оптимизированной для ИИ, объясняет Тунг.
Особую сложность может представлять сетевая задержка. Даже небольшие задержки в обработке ИИ-запросов могут затормозить инициативу. Кластерам GPU требуются высокоскоростные межсоединения для передачи данных на максимальной скорости. По словам Терри Торна, вице-президента по коммерческим операциям Ayar Labs, поставщика, специализирующегося на инфраструктуре, оптимизированной для ИИ, многие сети по-прежнему используют устаревшие медные провода, что значительно замедляет передачу данных.
Еще одна потенциальная проблема — пространство дата-центров и потребление энергии. Рабочие нагрузки ИИ — особенно те, что выполняются на кластерах GPU с высокой плотностью — потребляют огромное количество энергии. По мере расширения масштабов развертывания CIO могут спешно добавлять серверы, другое «железо» и передовые технологии, такие как жидкостное охлаждение. Неэффективные оборудование, сетевая инфраструктура и модели ИИ усугубляют проблему, говорит Наг.
Еще хуже то, что модернизация инфраструктуры электропитания и охлаждения сложна и требует много времени. Наг отмечает, что для завершения таких модернизаций может потребоваться год или больше, что создает дополнительные краткосрочные узкие места.
Продуманное масштабирование
Оптимизация ИИ сложна по своей сути, поскольку технология затрагивает такие разные области, как управление данными, вычислительные ресурсы и пользовательские интерфейсы. Поэтому CIO должны решить, как подходить к различным ИИ-проектам, исходя из конкретного сценария использования, модели ИИ и требований организации. Это включает в себя балансировку между локальными кластерами GPU с различным сочетанием чипов и облачными сервисами ИИ.
По словам Тунг, организации должны продумать, как, когда и где имеет смысл использовать облачные сервисы и специализированных поставщиков ИИ. Если создание кластера GPU собственными силами нежелательно или недоступно, важно найти подходящего поставщика услуг. «Вы должны понимать, какие отношения у провайдера с поставщиками GPU, какие типы альтернативных чипов они предлагают и к чему именно вы получите доступ», — говорит она.
В ряде случаев крупные облачные провайдеры могут предложить решение с помощью конкретных продуктов и услуг. Однако существует также множество нишевых и специализированных компаний, предоставляющих услуги в области ИИ, а некоторые консалтинговые компании (например, Accenture и Deloitte) имеют прямые партнерские отношения с Nvidia и другими производителями GPU. «В некоторых случаях, — говорит Тунг, — вы можете организовать поток данных через эти пользовательские модели и фреймворки. Опираясь на эти отношения, вы можете получить необходимые вам GPU».
Для тех, кто работает с кластерами GPU, первостепенное значение имеет максимальная производительность сети. По мере роста рабочих нагрузок системы сталкиваются с ограничениями передачи данных. Одним из критических мест является «медь». Можно, например, заменить эти межсоединения высокоскоростными оптическими, которые снижают задержки, энергопотребление и тепловыделение. В результате повышается эффективность использования GPU, а также эффективность работы моделей, особенно при крупномасштабном развертывании. Ayar Labs заявляет о
Чипы больше простаивают в ожидании данных, чем выполняют вычисления утверждает Торн. Проблема может стать особенно острой, когда организации внедряют сложные большие языковые модели (LLM). «Увеличение пропускной способности повышает коэффициент использования и снижает капитальные затраты», — добавляет он.
Еще одна часть головоломки — эффективность моделей и процессы дистилляции. Например, адаптировав модель для ноутбука или смартфона, часто можно использовать различные комбинации графических и центральных процессоров. В результате можно получить модель, которая работает быстрее, лучше и дешевле, говорит Тунг.
Энергетические игры
Также важно учитывать потребности ИИ в электроэнергии. Всеобъемлющая энергетическая стратегия поможет избежать как краткосрочных узких мест в производительности, так и долгосрочных. «Энергопотребление станет проблемой для многих компаний, если уже не стало», — говорит Наг. Без надлежащего снабжения электроэнергия может стать барьером на пути к успеху. Это также может подорвать устойчивое развитие и усилить обвинения в экологическом популизме. Наг предлагает CIO рассматривать ИИ в широком и целостном контексте, включая поиск путей снижения зависимости от GPU.
Разработка четких политик и системы управления использованием ИИ может свести к минимуму риск неправильного применения инструментов нетехническими бизнес-пользователями или непреднамеренного создания узких мест. Риск возрастает, когда эти пользователи обращаются к таким гиперскейлерам, как AWS, Google и Microsoft. «В отсутствие определенного контроля это может быть похоже на то, как если бы вы зашли в магазин сладостей и не знали, что выбрать», — поясняет Наг.
В итоге корпоративная ИИ-система должна объединять стратегию и ИТ-инфраструктуру. Цель, как объясняет Тунг, заключается в том, чтобы «ваша компания контролировала свою судьбу в мире, управляемом ИИ».