Рабочие нагрузки, связанные с искусственным интеллектом, доводят традиционные системы хранения данных до пределов их возможностей, требуя нового уровня производительности, пишет на портале The New Stack Дэниел Клайдсдейл-Коттер, CIO компании EchoStor.
Рост рабочих нагрузок ИИ кардинально меняет требования к корпоративной инфраструктуре, особенно к архитектуре СХД. Когда организации спешат реализовать ИИ-инициативы, многие обнаруживают, что традиционные подходы к хранению данных не справляются с поддержкой современных рабочих нагрузок ИИ. Это обстоятельство заставляет команды, отвечающие за инфраструктуру, переосмыслить свои стратегии хранения данных до основания.
В основе этой трансформации лежит применение графического процессора (GPU) в качестве наиболее важного и дорогостоящего компонента инфраструктурного стека ИИ. Это значительный отход от традиционных корпоративных вычислений, в которых центральные процессор (CPU) и память часто доминировали при определении стоимости систем. Центральная роль GPU меняет наше представление об архитектуре дата-центров, особенно в отношении электропитания, охлаждения, доступа к данным и производительности хранения.
Современные рабочие нагрузки ИИ, будь то обучение больших языковых моделей или запуск приложений машинного обучения, требуют огромных объемов данных, доставляемых с беспрецедентной скоростью. Эти требования вызывают волновой эффект во всем инфраструктурном стеке, при этом СХД несут основную нагрузку по поддержанию пиковой эффективности дорогостоящих GPU.
Последствия этой парадигмы, ориентированной на GPU, выходят за рамки требований к производительности. Теперь организациям необходимо по-новому взглянуть на совокупную стоимость владения (TCO), где решения по инфраструктуре хранения напрямую влияют на использование и эффективность инвестиций в GPU. Простой GPU из-за узких мест в СХД говорит о технической неэффективности и значительных финансовых потерях.
Проблема параллельного доступа к данным
Одной из наиболее серьезных проблем, с которыми сталкиваются архитекторы СХД, является поддержка параллельных схем доступа к данным. В типичной ИИ-инфраструктуре несколько GPU могут одновременно запрашивать доступ к одному и тому же набору данных, что создает потребность в высокой пропускной способности и низкой задержке в масштабе. Традиционные архитектуры хранения данных, разработанные в основном для последовательного доступа или ограниченных параллельных рабочих нагрузок, часто не могут удовлетворить эти требования.
Рассмотрим сценарий, в котором 20 GPU одновременно обрабатывают большой набор данных. Каждому GPU требуется доступ к данным с высокой пропускной способностью и низкой задержкой, и все они потенциально обращаются к одним и тем же данным одновременно. Такой уровень параллельного доступа создает требования к производительности, на которые многие обычные СХД просто не рассчитаны.
Если рассматривать различные этапы выполнения рабочих нагрузок ИИ, задача становится еще более сложной. На этапах обучения СХД должны справляться с устойчивым чтением больших массивов данных с высокой пропускной способностью. В сценариях получения выводов им, возможно, придется управлять более случайными шаблонами доступа с более жесткими требованиями к задержкам. По-настоящему эффективное решение для хранения данных должно адаптироваться к этим требованиям без постоянного изменения конфигурации.
Эволюция типов данных
Проблема выходит за рамки требований к производительности. За последнее десятилетие ценность, получаемая от корпоративных данных, значительно изменилась, пройдя три различных этапа:
- Эра структурированных данных. Характеризуется традиционными базами данных и хранилищами структурированных данных, которые обычно обслуживаются блочными СХД через соединения Fiber Channel.
- Эра полуструктурированных данных. Отмечена появлением озер данных и аналитических платформ, требующих более гибких решений для хранения и доступа к СХД.
- Эра неструктурированных данных. Зачастую созданные человеком и сложные в обработке, неструктурированные данные стали целью для ИИ, работающего в основном с необработанными документами, изображениями и текстовыми файлами.
Эта эволюция особенно сильно повлияла на системы сетевого хранения NAS, которые теперь должны справляться с беспрецедентными требованиями к параллельной пропускной способности при обслуживании неструктурированных данных для рабочих нагрузок ИИ. Традиционные архитектуры NAS, предназначенные для общего доступа к файлам, часто не справляются с этими новыми требованиями.
Переход к неструктурированным данным также поставил новые задачи в области управления и организации данных. Теперь СХД должны быть достаточно интеллектуальными, чтобы эффективно обрабатывать различные типы файлов, сохраняя при этом уровень производительности, необходимый для рабочих нагрузок ИИ. Это включает в себя возможности моментальных снимков, репликации, тонких (быстрых) клонированных копий, многоуровневого хранения данных, кэширования и предварительной обработки, которые выходят за рамки традиционных функций управления хранением.
Взаимосвязанный характер современной ИИ-инфраструктуры
Современная ИИ-инфраструктура требует целостного подхода к дизайну системы. Три критически важных компонента должны работать в гармонии:
- Высокопроизводительные СХД. Должны обеспечивать экстремальную пропускную способность для снабжения требовательных к данным графических процессоров.
- Передовые сетевые технологии. Необходимы для поддержки высокопроизводительной передачи данных и связи между GPU с низкой задержкой.
- Архитектура памяти. Включает такие инновации, как RDMA over Ethernet, для совместного использования пространства памяти графическими процессорами.
Эти компоненты глубоко взаимосвязаны. Например, сети должны поддерживать соединения с очень низкой задержкой с помощью Ethernet или Infiniband без потерь, чтобы обеспечивать эффективное совместное использование памяти графическими процессорами. Аналогичным образом, СХД должны быть способны обслуживать данные со скоростью, соответствующей как возможностям сети, так и скорости обработки GPU.
Взаимосвязанный характер этих систем также создает новые вызовы для мониторинга и управления. Инфраструктурным командам нужны сложные инструменты, чтобы понять узкие места в производительности и оптимизировать поведение системы для всех компонентов одновременно.
Взгляд в будущее: соображения для инфраструктурных команд
Инфраструктурные команды, планирующие инициативы в области ИИ, должны учитывать несколько важных моментов:
- Производительность в масштабе. Решения для хранения данных должны обеспечивать высокую производительность и согласованность в нескольких точках одновременного доступа.
- Архитектура данных. Команды должны оценить, как их данные будут использоваться в рабочих нагрузках ИИ, и соответствующим образом спроектировать архитектуру хранения.
- Системная интеграция. Системы хранения, сети и вычисления должны рассматриваться как единое целое, а не как отдельные компоненты.
- Оптимизация затрат. Поскольку GPU требуют значительных инвестиций, архитектура СХД должна быть оптимизирована таким образом, чтобы эти дорогостоящие ресурсы использовались в полной мере.
- Масштабируемость в будущем. Сегодняшние архитектурные решения должны учитывать завтрашние рабочие нагрузки ИИ, которые, вероятно, будут еще более требовательными.
- Регулирование данных. Решения для хранения данных должны поддерживать надлежащее регулирование данных, включая версионирование, контроль доступа и возможности аудита.
- Влияние на окружающую среду. Поскольку рабочие нагрузки ИИ потребляют значительное количество энергии, решения по архитектуре СХД могут повлиять на общую эффективность дата-центра.
- Автоматизация. Предоставление ИИ-исследователям и разработчикам доступа к функциям СХД. Например, к инициализации, клонированию и контролю доступа через предпочитаемые ими интерфейсы — IDE, Jupyter Notebooks и рабочие столы ИИ.
ИИ-революция заставляет кардинально пересмотреть архитектуру корпоративных СХД. Несмотря на то что традиционные подходы по-прежнему полезны для конкретных рабочих нагрузок, они все чаще оказываются недостаточными для удовлетворения современных требований ИИ. Для успеха ИИ-инициатив необходимо понимать эти новые требования и разрабатывать решения для хранения данных, способные эффективно их удовлетворить.
По мере того как организации расширяют свои возможности в области ИИ, способность эффективно хранить, получать доступ и обрабатывать огромные массивы данных будет становиться все более важным отличительным фактором. Инфраструктурные команды должны быть готовы к изменению своих стратегий хранения данных для решения этих новых задач, уделяя особое внимание решениям, способным обеспечить производительность, масштабируемость и эффективность, которые требуются рабочим нагрузкам ИИ.
Будущее корпоративных систем хранения данных — за интеллектуальными, адаптивными системами, которые могут легко интегрироваться с рабочими процессами ИИ, сохраняя при этом надежность и управляемость, необходимые предприятиям. Организации, которые осознают эти новые требования и адаптируются к ним, будут иметь больше возможностей для успешной реализации своих ИИ-инициатив.