По мнению экспертов, с улучшением архитектуры искусственного интеллекта и снижением стоимости ИИ-проектов корпоративное внедрение этой технологии будет расширяться, стимулируя дальнейшие инновации и способствуя общей выгоде для бизнеса и ИИ-вендоров. Портал TechTarget проанализировал основные задачи, стоящие на пути совершенствования ИИ-архитектур, и подходы, используемые для их решения.
Приложения ИИ часто выигрывают от использования архитектур, которые в корне отличаются от архитектур традиционных корпоративных приложений. И вендоры нередко совершают смелые кульбиты по созданию принципиально новых компонентов. «В вычислительной сфере буквально наблюдается кембрийский взрыв, в котором стремительный рост интереса к корпоративным приложениям ИИ стимулирует инновации, облегчающие внедрение и масштабное применение ИИ, — говорит Кейт Стриер, заведующий направлением ИИ в консалтинговых сервисах EY. — Инвесторы вливают капитал в смелые проекты, призванные уменьшить сложности ИИ, а более маститые инфраструктурные вендоры модернизируют свои разнообразные предложения чипов, систем хранения данных, сетевых решений и облачных сервисов для ускорения развертывания ИИ-систем». А перед CIO, продолжает он, встают задачи выбора таких архитектур ИИ, которые наилучшим образом подойдут для намечаемых сценариев применения ИИ-систем.
По словам Стриера, поскольку ИИ связан с колоссальными вычислениями, он предъявляет иной набор технических требований и норм безопасности, чем традиционные рабочие нагрузки. Эффективная отдача от конкретных форм использования ИИ отчасти зависит от способности вендоров предоставить пользователям экономически выгодный доступ к технической инфраструктуре ИИ, а также к облачным и иным сервисам, обеспечивающим возможности для этих сложных вычислений.
Стриер полагает, что процесс в этом направлении уже идет и на горизонте вырисовывается дальнейший прогресс в развитии архитектур ИИ. Помимо небольшой группы передовых фирм-специалистов в высокопроизводительных вычислениях, катализатором роста гибкости, мощности и быстродействия архитектур ИИ будет и более широкая экосистема, в которую войдут стартапы, создающие чипы и облачные сервисы и борющиеся за установление новых золотых стандартов в ИИ-вычислениях. Со снижением барьеров для проектов начального уровня применение ИИ будет расти, порождая сетевой эффект, способствующий дальнейшим инновациям и общей выгоде для пользователей и вендоров.
Что касается CIO, то им следует помогать своим организациям и знать про проблемы, возникающие при выстраивании ИИ-архитектуры для корпоративных нужд.
Эволюция процессоров
Одним из важнейших элементов для перехода от традиционных вычислительных архитектур к архитектурам ИИ стал прогресс графических процессоров (GPU), программируемых вентильных матриц (FPGA) и центральных процессоров (CPU), специально ориентированных на ИИ. Использование архитектур на базе GPU и FPGA обеспечивает новые уровни производительности и гибкости систем для вычислений и хранения данных, и благодаря этому поставщики решений могут предлагать разнообразные продвинутые сервисы для приложений ИИ и машинного обучения.
«Эти процессорные архитектуры перераспределяют исполнение многих продвинутых функций (например, тренировку ИИ) и позволяют создать рационально устроенный стек для вычислений и хранения данных с небывало высокой производительностью и эффективностью», — говорит Суриа Варанаси, сооснователь и директор по технологиям фирмы Vexata, поставляющей решения для управления данными.
Однако новые чипы предоставляют предприятиям лишь часть того, что им требуется для использования ИИ. Оптимальная архитектура ИИ также должна решать вопросы пропускной способности и задержек при передаче данных. Поэтому ключевую роль играет создание более быстрых сетей. Во многих ИИ-алгоритмах пропуск в очередь очередного набора данных требует выждать выполнение целого цикла, и поэтому важным фактором становятся задержки.
Другая проблема состоит в том, что данные, перемещаясь от сервера к серверу или между серверами и устройствами хранения, встречают на своем пути разные протоколы. Инженеры могут уменьшить связанные с этим издержки, делая больший упор на локальность данных, так чтобы один сервер мог обрабатывать более крупные порции данных, не дожидаясь других. Доказано, что экономии способствует и улучшение интеграции между GPU и системами хранения. Некоторые вендоры стремятся рационализировать использование ИИ-серверов в направлении композитности, чтобы одни и те же серверы могли обрабатывать разнородные рабочие нагрузки.
Внедрение NVMe
Многие GPU-решения основаны на моделях, использующих подсистемы хранения прямого подключения (DAS), что чрезвычайно затрудняет организацию распределенной тренировки ИИ и логических выводов. Как результат, создание и управление подобными конвейерами глубокого обучения на данных превращается в сложные задачи, требующие много времени.
Это узкое место можно устранить посредством технологии NVMe, изначально созданной для лучшей соединяемости между SSD-накопителями и «железом» традиционных корпоративных серверов. Сегодня ее используют в новых сетевых I/O-решениях для улучшения обработки ИИ-нагрузок.
Идея состоит в том, что NVMe over Fabrics (NVMeF) поможет уменьшить издержки, связанные с конвертацией между сетевыми протоколами и управлением специфическими особенностями конкретных типов SSD. Это поможет CIO оправдать стоимость ИИ-приложений, работающих с более объемистыми массивами данных.
Обращение к NVMeF все же несет определенные риски, начиная с высокой стоимости инвестиций в ультрасовременные решения. К тому же в индустрии еще не сложился вендорно-независимый подход к NVMeF, то есть при выборе продукта CIO понадобится проявить осторожность, чтобы не замкнуться на одного вендора.
Однако, по мнению Варанаси, внедрение NVMeF может стать важным шагом в оптимизации корпоративной архитектуры ИИ. «Хотя использование архитектур NVMeF может стать мейнстримом только через год-полтора, их базовые элементы уже имеются в распоряжении, и первопроходцы уже видят многообещающие результаты», — говорит он.
CIO, желающих расширить горизонты ИИ-приложений, может заинтересовать создание разделяемого пула хранения данных, оптимизированного для ИИ-нагрузок посредством NVMeF, взамен существующего сетевого оборудования для систем хранения. В ряде случаев это может достаточно быстро создать конкурентные преимущества. С другой стороны, не исключено, что экономически разумнее подождать, когда в индустрии установится интероперабельность NVMeF.
Сокращение переноса данных
Одним из важных соображений CIO при планировании разных участков ИИ-конвейера является стоимость перемещения данных. От введения и преобразования данных до их использования в тренировке алгоритмов, ИИ-проекты нуждаются в транспортировке и обработке огромных объемов данных.
Требуемые для этого аппаратные и человеческие ресурсы, а также время, уходящее на перемещение данных, могут сделать ИИ-проект непомерно дорогим. Если CIO смогут отыскать способы устранить перемещение данных между частями конвейера, они с большой вероятностью смогут выстроить жизнеспособную ИИ-инфраструктуру, удовлетворяющую запросам бизнеса, считает Харрис Позидис, исследователь и менеджер из IBM Research, занимающийся технологией ускорения решений по хранению данных. Вендоры работают над этой проблемой.
Например, лаборатория IBM в Цюрихе экспериментирует с различными хардверными и софтверными оптимизациями, сокращающими перемещение данных в крупномасштабных ИИ-приложениях. В популярном тесте из области рекламной клик-аналитики эти оптимизации увеличили производительность в 46 раз. По словам Позидиса, при этом были использованы такие подходы, как распределенная тренировка и GPU-ускорение, и улучшена поддержка разреженных структур данных.
Другим важным компонентом ускорения работы с ИИ-нагрузками является параллелизм. Для эффективной параллельной обработки алгоритмов на базе GPU распределенная тренировка требует изменений и на уровне аппаратуры, и на уровне ПО. Исследователи IBM построили прототип фреймворка с параллелизмом по данным, обеспечивающего масштабирование и тренировку для массивных наборов данных, превышающих ресурсы памяти отдельных единиц аппаратуры. Это критически важно для крупномасштабных приложений. Перемещение данных было сокращено благодаря оптимизации нового фреймворка под рациональную в плане коммуникаций тренировку с соблюдением локальности данных.
На аппаратном уровне исследователи IBM экспериментируют с инновациями по межсоединениям CPU, GPU и ОЗУ внутри серверов и между серверами и устройствами хранения с использованием NVMeF.
«Различные ИИ-нагрузки ограничиваются всевозможными узкими местами сети, пропускной способностью ОЗУ или соединений CPU и GPU. Внедряя во все части системы более эффективные межсоединения и протоколы, мы прокладываем путь к более быстрым ИИ-приложениям», — говорит Позидис.
Композитные вычисления
Сегодня большинство ИИ-нагрузок используют заранее сконфигурированную базу данных, оптимизированную под конкретную аппаратную архитектуру. Однако рынок движется в направлении программно-управляемой аппаратуры, позволяющей организациям интеллектуально распределять обработку между GPU и CPU в зависимости от поставленной задачи, говорит Чед Мили, вице-президент Teradata по продуктам и решениям для аналитики.
Часть проблемы состоит в том, что предприятия используют разнообразные движки вычислений для доступа к разнообразным опциям хранения данных. Крупные предприятия стремятся хранить часто вызываемые важные данные, такие как данные клиентов, финансовые данные, информация о цепочках поставок, продуктах и тому подобное, в высокопроизводительных средах, а менее часто используемые массивы больших данных типа показаний датчиков, информации из Интернета и мультимедиа сохраняются в более дешевых облачных объектных хранилищах.
Одной из целей композитных вычислений является использование контейнеризации для запуска вычислительных единиц типа SQL-движков, графовых движков, движков машинного обучения и движков глубокого обучения, которые могут работать с данными, распределенными по этим разным уровням хранения. Способность запускать разнообразные движки аналитических вычислений позволяет использовать ансамблевые модели, включающие инсайты из разных движков, что, как правило, приводит к более эффективным результатам.
ИТ-вендоры, такие как Dell Technologies, Hewlett Packard Enterprise, а также Liquid, хотят выйти за рамки традиционных архитектур прошлого, назначающих рабочие нагрузки на уровне единиц аппаратуры. Новая цель состоит в том, чтобы распределять ИИ-нагрузки по более гранулярному комплексу CPU, GPU, ОЗУ и систем хранения. Для этой трансформации нужны новые сетевые компоненты, повышающие скорость обмена данными и уменьшающие задержки при соединении этих разных вычислительных компонентов.
Например, многие облачные дата-центры используют для соединения серверов и устройств хранения Ethernet с задержками порядка 15 мкс. Интерфейс InfiniBand, продвигаемый во многих конвергированных инфраструктурных решениях, может уменьшить эти задержки до 1,5 мкс. Liquid создала комплект средств для соединения различных единиц аппаратуры через PCI Express (PCIE), который может снизить задержки до 150 нс.
На будущее имеются предложения размещать возле рабочих GPU дополнительную оперативную память типа DDR4 с еще более быстрыми межсоединениями и задержками в 14 нс. Однако этот подход сможет работать только на очень коротких расстояниях в несколько дюймов.
Мало Маррек, сооснователь и руководитель выпуска продуктов сервиса ИИ-управления ClusterOne, говорит, что композитная обработка ИИ-нагрузок потребует дополнительных усилий на софтверном уровне. Хотя предприятия начали экспериментировать в этом направлении с использованием Docker и Kubernetes, их приложение к GPU еще довольно незрело. «Вообще говоря, рабочее использование и мониторинг GPU — дело нетривиальное. Хорошее решение для интегрированных форм мониторинга пока еще отсутствует», — констатирует Маррек.
Перенос хранения данных к GPU
Другой подход заключается в использовании GPU для предварительной обработки данных, чтобы сократить данные, необходимые для конкретного типа анализа, и помочь организации и маркировке этих данных. Это облегчит размещение надлежащего подмножества этих данных вблизи комплекта GPU, участвующих в ИИ-обработке, что, в свою очередь, позволит алгоритму работать из ОЗУ, а не вызывать данные их устройств хранения по более медленным сетям.
«Укоренившаяся ментальность, рассматривающая хранение данных, вычислительные ресурсы и ОЗУ как раздельные компоненты решения, является причиной трудностей для эффективного масштабирования», — говорит Алекс Джон, директор по технологиям и основатель софтверной фирмы Nyriad, отпочковавшейся от исследовательского проекта крупнейшего в мире радиотелескопа SKA (Square Kilometer Array Telescope). Чем больше объемы поступающих данных, тем менее практично становится их перемещать для обработки.
Действительно, главным ограничителем для SKA Telescope были гигантские объемы ресурсов, необходимых для обработки в реальном времени радиосигнала, несущего 160 Тб данных в секунду. Ключевым элементом решения участников проекта был отказ от RAID-систем, обычно используемых в дата-центрах, с переходом на параллельно-кластерную файловую систему типа BeeGFS, упрощающую возможность организовывать данные для конкретных ИИ-нагрузок.
Когда CIO формируют стратегию для ИИ-архитектуры, наиболее подходящей для решения своих конкретных задач, важным соображением является практичность системы в будущей эксплуатации. Если разработчики, инженеры по данным и DevOps-коллективы смогут быстро разобраться в новой технологии, они смогут сконцентрировать больше внимания на выстраивании правильной бизнес-логики, а не на частных проблемах развертывания решения и создания конвейеров данных.
Другим важным соображением являются затраты времени и сил, которые потребуются от организации для слияния новой ИИ-архитектуры с существующей экосистемой. «Ресурсы всегда ограничены, и прежде чем создавать новые инфраструктуры и строить планы на интенсивные рабочие нагрузки CIO должны взвесить реальные возможности своего предприятия», — говорит Асаф Сомекх, основатель и CEO компании Iguazio.