Рассматривая обработку данных искусственного интеллекта как часть конвейера данных проекта, предприятия могут обеспечить эффективное обучение моделей ИИ и выбор подходящей системы хранения, пишет в корпоративном блоге Деннис Хан, старший аналитик Omdia по хранению данных в центрах обработки данных.

Оптимизация системы хранения данных для ИИ — это не просто выбор подходящего оборудования, но и надлежащий подход к управлению данными, позволяющий успешно обрабатывать огромные объемы данных, необходимые большим языковым моделям (LLM).

Рассматривая обработку ИИ как часть конвейера данных проекта, предприятия могут обеспечить эффективное обучение моделей генеративного ИИ и выбор подходящей системы хранения. А уделяя особое внимание требованиям к хранению данных для ИИ, предприятия смогут обеспечить эффективность и масштабируемость своих ИИ-моделей.

Этапы конвейера данных ИИ в соответствии с потребностями в хранении

В конвейере данных ИИ различные этапы согласуются с конкретными потребностями в хранении, чтобы обеспечить эффективную обработку и использование данных. Вот типичные этапы и связанные с ними требования к системам хранения:

— Сбор и предварительная обработка данных. Система хранения, где сырые и часто неструктурированные данные собираются и централизуются (все чаще в озерах данных), а затем очищаются и преобразуются в наборы данных, готовые к процессу обучения.

— Обучение и обработка модели. Система хранения, в которую поступает набор данных для обработки на GPU. На этом этапе конвейера также необходимо хранить артефакты обучения, такие как гиперпараметры, метрики выполнения, проверочные данные, параметры модели и конечную модель вывода. Требования к системам хранения конвейера будут различаться в зависимости от того, разрабатываете ли вы LLM с нуля или дополняете существующую модель, например используя генерацию с расширенным поиском (RAG).

— Выводы и развертывание модели. Критически важная система хранения, где размещается обучаемая модель, позволяющая делать прогнозы или принимать решения на основе новых данных. Получаемые выводы используются приложениями для получения результатов, часто встраиваются в информационные и автоматизированные процессы.

— Архивирование. После завершения этапа обучения разнообразные артефакты, такие как различные наборы обучающих данных и различные версии модели, должны храниться вместе с исходными данными. Как правило, это долгосрочное хранение, но данные модели все равно должны быть доступны для извлечения определенных элементов, связанных с прошлым обучением.

Используемая система хранения обычно зависит от выбора: облако vs. онпремис

Перед началом ИИ-проекта необходимо решить, будут ли использоваться облачные ресурсы, ресурсы локального дата-центра или и то, и другое в гибридной облачной системе.

Для хранения данных облако предлагает различные типы и классы, соответствующие различным этапам конвейера, в то время как локальные системы хранения часто ограничены, что не позволяет найти универсальное решение для различных рабочих нагрузок.

Наиболее распространенное разделение гибридного конвейера — обучение в облаке и выполнение выводов онпремис и на периферии.

Этап 1. Требования к системам хранения для сбора и предварительной обработки данных

Во время сбора данных огромные объемы необработанных неструктурированных данных централизованно поступают из удаленных дата-центров и с IoT-периферии, что требует высокого уровня совокупной производительности для эффективной передачи данных. Производительность должна соответствовать скорости Интернета, которая не является исключительно высокой, чтобы передавать терабайты данных с помощью нескольких потоков одновременно.

Не менее важна и масштабируемость емкости, поскольку система хранения данных должна быть способна экономично расширяться для работы с растущими массивами данных и увеличивающимися вычислительными требованиями.

Для удовлетворения этих требований к масштабированию и производительности в рамках бюджета важно обеспечить оптимальную стоимость решения без чрезмерных затрат. Кроме того, избыточность жизненно важна для предотвращения потери данных за счет надежного резервного копирования и репликации.

Безопасность имеет первостепенное значение для защиты конфиденциальных данных от взломов, обеспечивая целостность и конфиденциальность информации. Наконец, совместимость необходима для бесперебойной интеграции с существующими системами, что способствует бесперебойному потоку данных и управлению ими на различных платформах и технологиях.

Наиболее распространенной системой хранения, используемой для сбора и предварительной обработки данных, является облачное объектное хранилище с высокой степенью резервирования. Объектное хранилище было разработано для эффективного взаимодействия с Интернетом для сбора данных, оно масштабируемо и экономично.

Для поддержания экономической эффективности в больших масштабах обычно используются устройства на жестких дисках (HDD), однако по мере того, как хранилище становится более интерактивным, все большую актуальность приобретают недорогие твердотельные накопители (SSD). Кульминацией этого этапа является создание хорошо организованных и тщательно отобранных наборов данных.

Этап 2a. Требования к системам хранения для эффективного LLM-обучения

Система хранения, необходимая для снабжения GPU данными для обработки LLM, должно отвечать нескольким важнейшим требованиям. Крайне важна высокая производительность, требующая высокой пропускной способности и быстрой скорости чтения/записи для снабжения GPU и поддержания их непрерывной работы.

GPU нуждаются в постоянном и быстром потоке данных, что подчеркивает важность соответствия хранения данных их вычислительным возможностям. Рабочая нагрузка должна управлять частыми дампами данных большого объема, генерируемыми в процессе обучения. Надежность очень важна для предотвращения перерывов в обучении, поскольку любой простой или рассогласование могут привести к значительным общим задержкам в работе конвейера.

Кроме того, важны удобные интерфейсы, которые упрощают и оптимизируют административные задачи и позволяют специалистам в области науки о данных сосредоточиться на разработке ИИ-моделей, а не на управлении хранением.

Большинство LLM проходят обучение в облаке, используя многочисленные GPU. Отобранные наборы данных копируются из облачного объектного хранилища на локальные твердотельные NVMe-накопители, которые обеспечивают экстремальную производительность подачи данных в GPU и требуют минимального управления. Крупные облачные провайдеры располагают автоматизированными процессами локального копирования и кэширования этих данных.

Однако полагаться только на локальное хранилище может быть неэффективно: SSD могут оставаться незадействованными, размеры наборов данных необходимо изменять для их размещения, а медленная передача данных может препятствовать эффективному использованию GPU. В результате компании изучают параллельные файловые системы, работающие в облаке, чтобы обрабатывать данные через прямое подключение к GPU-сервисам.

Этап 2b. Требования к системам хранения для эффективного RAG-обучения

Во время RAG-обучения частные данные интегрируются в общую модель LLM для создания новой агрегированной модели. Такой децентрализованный подход позволяет обучать LLM, не требуя доступа к конфиденциальным данным организации. Оптимальным решением для хранения этих конфиденциальных данных является система, способная скрыть данные, содержащие персональную информацию.

В последнее время наблюдается переход от централизованного хранения всех данных к управлению ими на местах в удаленных дата-центрах с последующей передачей в облако для обработки.

Другой подход предполагает перенос данных в облако с помощью облачных распределенных систем хранения. Эффективные решения по хранению данных для RAG-обучения должны сочетать высокую производительность с возможностями комплексной каталогизации данных.

Очень важно использовать высокопроизводительные системы хранения, например распределенные системы на базе SSD, чтобы обеспечить достаточную пропускную способность для передачи больших наборов данных на GPU.

Кроме того, для защиты конфиденциальных данных в процессе обучения необходимы надежные меры безопасности, включая шифрование и контроль доступа.

Ожидается конкуренция между параллельными файловыми системами и традиционными сетевыми хранилищами (NAS). NAS традиционно был предпочтительным выбором для локального хранения неструктурированных данных, и это по-прежнему имеет место во многих локальных дата-центрах.

Этап 3. Требования к системам хранения для эффективных ИИ-выводов и развертывания моделей

Для успешного развертывания решения для ИИ-выводов требуется высокоскоростная, высоконадежная система хранения. Она обеспечивает быстрый доступ к данным и их обработку, минимизируя задержки и повышая производительность в режиме реального времени.

Кроме того, для работы с растущими массивами данных и увеличивающимися рабочими нагрузками при получения выводов необходимы системы хранения с возможностью масштабирования производительности. Для защиты конфиденциальных данных на протяжении всего процесса получения выводов необходимо применять меры безопасности, включая встроенную защиту от вирусов-вымогателей.

Получение выводов связано с обработкой неструктурированных данных, которые эффективно управляются файловыми системами или NAS. Выводы — это этап принятия решений в ИИ, который тесно интегрирован с обслуживанием контента для обеспечения практической пользы. Он широко применяется в различных средах, охватывающих периферийные вычисления, принятие решений в реальном времени и обработку в дата-центрах.

Развертывание системы получения выводов требует высоконадежной системы хранения и часто требует решений с низкой задержкой для получения своевременных результатов.

Этап 4. Требования к системе хранения для архивации проектов

Для обеспечения долгосрочного хранения данных требуется надежная система хранения, позволяющая поддерживать целостность и доступность архивных данных в течение длительного времени.

Онлайн-поиск важен для облегчения периодического доступа к архивным данным или их восстановления. Экономическая эффективность также имеет решающее значение, поскольку к архивным данным обращаются нечасто, что требует недорогих решений для хранения.

Онлайновое объектное хранилище большой емкости на базе HDD или ленты, дополненной HDD, является наиболее распространенным подходом к архивированию в облаке. В то же время в локальных системах для активных архивов все чаще используется лента благодаря ее экономичности и отличным экологическим характеристикам.

Важность масштабируемости: мир ИИ продолжает развиваться

В настоящее время для оптимизации процесса обработки данных ИИ обычно используются различные типы систем хранения. В будущем, по мнению Omdia, все большее внимание будет уделяться оптимизации всего конвейера данных ИИ и процессов разработки.

— На этапах сбора и предварительной обработки данных будут использоваться масштабируемые и экономически эффективные системы хранения. По прогнозам, 70% времени реализации проекта будет посвящено преобразованию исходных данных в контролируемые наборы данных для обучения. Ожидается, что по мере завершения ранних стадий реализации ИИ-инициатив проблемы, связанные с обнаружением, классификацией, контролем версий и передачей данных, будут становиться все более актуальными.

— Для обучения моделей очень важны высокопроизводительные распределенные системы хранения на базе SSD, которые позволяют передавать большие объемы данных на GPU, обеспечивая быстрый доступ к ним для итеративных процессов обучения. В настоящее время в большинстве сценариев облачное обучение опирается на локальные SSD, но по мере совершенствования процессов ожидается, что организации будут отдавать предпочтение более эффективным методам обучения и решениям для хранения данных. В связи с этим в последнее время наблюдается рост числа инновационных параллельных файловых систем на SSD, разработанных стартапами в качестве альтернативы локальным SSD. Эти новые системы хранения на базе твердотельных NVMe-накопителей призваны более эффективно справляться с высокими требованиями к пропускной способности и низкой задержке рабочих нагрузок ИИ за счет оптимизации резервируемой емкости и устранения необходимости передачи данных на локальные накопители.

— Для получения выводов и развертывания моделей будут использоваться системы хранения данных с низкой задержкой, такие как NVMe-накопители, которые обеспечивают быстрый поиск данных и повышают производительность в реальном времени. По прогнозам Omdia, в период до 2028 г. емкость систем хранения данных для выводов будет расти почти на 20% в годовом исчислении, что почти в четыре раза превышает рост емкости систем хранения, используемых для обучения LLM.

На всех этапах конвейера повышенное внимание должно уделяться безопасности и конфиденциальности данных. Для защиты конфиденциальной информации в решения для хранения данных интегрируются передовые средства шифрования и обеспечения соответствия нормативным требованиям. Обеспечение безопасного доступа к данным и их шифрование имеют решающее значение для любого конвейера данных.

Со временем в области систем хранения данных может сформироваться единый универсальный тип, который устранит проблемы, связанные с конкретными этапами, такими как передача данных и необходимость защиты нескольких систем. Использование единой сквозной системы позволит эффективно собирать данные, обучать и делать выводы в рамках одной инфраструктуры.