Гонка вооружений в сфере ИИ сделала слова «GPU» и «гигаватт» нарицательными, и не без оснований: масштаб вычислений беспрецедентен. Но что насчет базового уровня хранения? Как организации собираются хранить все данные для ИИ и обеспечивать работу прожорливых графических процессоров? Оказывается, в системах хранения данных для высокопроизводительных вычислений (HPC) и ИИ тоже происходит революция, отмечают опрошенные порталом HPCwire эксперты.

Прежде всего, стоит отметить, что в СХД для ИИ и HPC что-то изменилось, а что-то — нет. Что касается аппаратного обеспечения, несмотря на то, что твердотельные накопители (SSD) на базе NVMe стали доминирующими, в СХД по-прежнему используются вращающиеся диски и даже ленты. Поддержка протокола RDMA, будь то через InfiniBand или Ethernet, и технологии Nvidia GPUDirect помогает обеспечивать бесперебойную работу графических процессоров.

С точки зрения ПО, используется широкий спектр файловых систем и объектных хранилищ. Параллельные файловые системы, которые обеспечивали традиционные рабочие нагрузки HPC, такие как Lustre, PanFS и IBM Storage Scale (ранее Spectrum Scale и GPFS), переживают возрождение благодаря росту рабочих нагрузок ИИ. Обучение больших моделей ИИ в некотором роде похоже на традиционные рабочие нагрузки HPC, такие как моделирование и симуляция. Оба варианта требуют высокоскоростной передачи больших объемов данных в виде блоков относительно большого размера в GPU и связанную с ним память, и традиционные параллельные файловые системы хорошо подходят для этого.

В то же время некоторые организации основывают свои СХД для ИИ на сетевых системах хранения (NAS), использующих NFS или параллельную NFS (pNFS). Ряд поставщиков СХД из мира NFS и pNFS добиваются успеха на поприще ИИ. Многие поставщики СХД, независимо от того, используют ли они традиционную параллельную файловую систему или pNFS, а также разработчики ПО и продавцы устройств, внедряют в свои решения совместимые с S3 объектные хранилища, в первую очередь для обслуживания рабочих нагрузок, связанных с выводом ИИ. Ethernet и InfiniBand являются преобладающими сетевыми протоколами для ИИ и HPC, а RDMA используется для ускорения передачи данных в обоих случаях.

Изменился масштаб хранилища и способ его использования. Раньше петабайтная СХД считалась хранилищем «больших данных», но благодаря современной сверхплотной флэш-памяти организации могут хранить экзабайт данных в одной стойке. Гигаваттные дата-центры, построенные такими компаниями, как OpenAI, Google и др., будут содержать тысячи стоек серверов хранения данных, а также вычислительные кластеры с сотнями тысяч GPU. Некоторые из них будут оснащены новейшими фирменными сетевыми технологиями Nvidia, такими как NVLink.

Растущие рабочие нагрузки ИИ предъявляют несколько иные требования по сравнению с HPC, включая больше сбора, маркировки, подготовки и сортировки данных еще до начала реальной работы (обучения модели). После обучения модели рабочие нагрузки вывода предъявляют другой набор требований к производительности и ресурсам. Размеры файлов варьируются от больших до малых, а входные данные для чат-бота или взаимодействия с агентным ИИ могут включать фрагменты данных из различных систем. Оркестровка данных становится проблемой, как и такие функции, как обеспечение безопасности, конфиденциальности и соблюдения требований к размещению данных.

Коммерческие организации используют общую инфраструктуру для научных вычислений, ИИ-вычислений и хранения данных для ИИ, однако эти рабочие нагрузки предъявляют различные требования, отметает Эддисон Снелл, генеральный директор аналитической компании Intersect360 Research. «И разрыв между тем, что запрашивают конечные пользователи, и тем, что предлагают поставщики, растет», — говорит он.

Раньше существовало два уровня хранения: дисковое и ленточное. «Сейчас в большинстве подобных сред используется пять, шесть, семь уровней, — продолжает Снелл. — И производительность теперь зависит не столько от пропускной способности какого-то уровня, сколько от того, как я его оптимизировал и какие данные находятся на каком уровне».

По словам Марка Носсокоффа, аналитика индустрии хранения данных Hyperion Research, все компании, стремящиеся завоевать рынок СХД для HPC и ИИ, должны предоставлять базовую инфраструктуру для поддержки основных возможностей. «Но этого недостаточно, — говорит он. — Нужен дополнительный инструментарий, чтобы действительно иметь возможность управлять данными, которые перемещаются и хранятся, понимать, что происходит с ними, и получать их в нужное время в нужном месте».

Кластеры обучения ИИ часто оснащены специализированными флэш-накопителями, называемыми «быстрым промежуточным слоем хранения» («burst buffers»), которые помогают сгладить грубые перебои ввода-вывода во время обучения. Для этапа ИИ-вывода многие поставщики СХД интегрируют в свои платформы кэши «ключ-значение», которые позволяют им сохранять состояние на протяжении всего взаимодействия с ИИ или даже сохранять компоненты диалога для последующего использования.

Управление метаданными стало более важной задачей для ИИ-СХД, особенно когда данные распределены по нескольким системам, включая локальные и облачные. Даже каталогизация, управление и контроль этих метаданных в рамках одного экзабайтного кластера хранения данных представляет собой сложную задачу, и, похоже, каждый поставщик реализует эту функцию по-своему.

«ИИ требует доступа ко всем данным во всех локациях, а СХД обычно строились иначе. Именно с этой проблемой, на мой взгляд, сталкиваются организации, — говорит Молли Пресли, старший вице-президент по маркетингу Hammerspace. — Они не знают, как объединить все эти компоненты. Существует множество новых прикладных технологий, с которыми они никогда не работали. И как им решить, какой компонент всего стека использовать?»

Опросы показали, что многие (если не большинство) HPC-организации уже используют свои кластеры для выполнения рабочих нагрузок ИИ, будь то для прямой поддержки традиционного моделирования или для других целей, таких как помощь в анализе данных, обзоре литературы, формулировании гипотез или проведении научных экспериментов. Хотя между этими двумя типами рабочих нагрузок есть сходство, есть и важные различия.

«Что бы вы ни выбрали, будь то гидродинамика, краш-моделирование, космология, моделирование квантовой механики или что-то еще, вы найдете HPC-приложение, которое делает что-то необычное с хранилищем, но по-своему, в то время как ИИ в этом смысле на самом деле более последователен», — говорит Джеймс Кумер, старший вице-президент по продуктам DDN, начавший работать в сфере HPC 30 лет назад как научный сотрудник со степенью PhD. — Рабочие нагрузки обучения... загружают модели, загружают наборы данных, контрольные точки. Вот, собственно, и все«.

Проблемы с адаптацией хранилища к ИИ различны. «Есть компании, которые тратят буквально миллиард долларов, — продолжает Кумер. — 30% тратится на дата-центр, охлаждение и электропитание инфраструктуры, от 60 до 50% — на графические процессоры, 10% — на сети и только 5% — на хранилище. Но если вы потратите эти 5% своего бюджета на неправильное хранилище, вы можете серьезно снизить производительность всего этого пирога. Вы можете получить на 25% меньше результата, потому что будете тратить это скрытое время на ожидание передачи данных».

СХД для ИИ радикально меняются, и вчерашние концепции неприменимы к завтрашним проблемам, считает технический директор WEKA Шимон Бен-Давид: «Если раньше вы говорили только о хранилище и продавали хранилище для резервного копирования, общее хранилище для блочных устройств, то это не может продолжаться долго, поскольку клиенты, честно говоря, ожидают гораздо большего».

Сегодня никто не хочет покупать хранилище; вместо этого все хотят покупать результат, отмечает он. «Так что вы не можете просто сказать: вот вам среда хранения. Вы должны продемонстрировать, что у вас есть среда, которая ускоряет ИИ-вывод в пять или даже в десять раз, — говорит Бен-Давид. — Или что у вас есть среда, которая полностью загружает ваши графические процессоры. Или вот вам среда, которая уже содержит векторные базы данных наряду с привычными реляционными базами данных».

Gartner недавно опубликовала отчет, в котором утверждается, что 60% проектов ИИ будут заброшены к 2026 г. из-за отсутствия данных, готовых для ИИ, напоминает Джефф Бакстер, вице-президент по маркетингу NetApp. «Мы видим, как все больше компаний сталкиваются с проблемой: модели хороши, наука о данных надежна, но нет данных, готовых для ИИ, которые были бы легко доступны и управлялись бы таким образом, чтобы стимулировать эти эксперименты», — говорит он.

В общем, по словам Эрика Сало, вице-президента по маркетингу VDURA, разработчика файловой системы Panasas PanFS, сейчас наступили прекрасные времена для бизнеса высокопроизводительных СХД. «Это просто самая крутая гонка вооружений, которую я видел за всю свою карьеру, — говорит он. — Пару лет назад я редко встречал запросы на пропускную способность в один терабайт в секунду. Теперь же есть запросы на четыре, пять, восемь, девять терабайт в секунду для этих систем. Их становятся все больше и больше».