Активное архивирование — это эффективное решение для управления потребностями искусственного интеллекта в данных, позволяющее сбалансировать доступ к системам хранения, энергопотребление и затраты в дата-центрах, пишет на портале Data Center Knowledge Рич Гадомски, сопредседатель Active Archive Alliance и руководитель отдела ленточных технологий в подразделении решений для хранения данных компании FUJIFILM North America.

Бурный рост ИИ вызвал необходимость в новых подходах к использованию энергии, управлению данными и агрегации информации. Активное архивирование может помочь решить многие из этих проблем, позволив организациям использовать всю мощь больших наборов данных ИИ.

Приложения ИИ процветают при наличии доступа к максимально возможному количеству данных. Однако современные решения по управлению и хранению данных привели к тому, что дата-центры перегружены дорогостоящим и энергоемким высокопроизводительным сетевым оборудованием и СХД.

По мере внедрения ИИ становится ясно, что эта революционная технология будет и дальше потреблять огромное количество энергии. Один запрос к большой языковой модели (LLM), такой как ChatGPT, генерирует в сто раз больше углерода, чем поиск в Google.

Кроме того, LLM требуют обучения, которое может потреблять до 10 ГВт·ч для одной модели. LLM создают не только крупные облачные провайдеры, многие компании, организации и правительства работают над собственными моделями.

Зачастую после первых нескольких недель работы к большинству ИИ-данных обращаются редко. Однако некоторые исторические данные должны быть легкодоступными. Поэтому имеет смысл организовать многоуровневое хранение данных с учетом частоты доступа, задержки и стоимости, а не хранить их все в дорогих и энергоемких первичных СХД. Такие архитектуры должны поддерживать аспекты управления данными, которые естественным образом возникают, когда требуются различные уровни обслуживания.

Не каждый набор ИИ-данных требует высокопроизводительного хранения

ПО активного архива для интеллектуального управления данными позволяет хранить данные во многих местах и распределять их по нескольким устройствам и уровням хранения, обеспечивая быстрый доступ к ним в любой момент, когда это необходимо для поддержки потребностей пользователей, включая рабочие процессы ИИ.

Существует довольно много наборов данных ИИ, которые можно считать «холодными», поскольку к ним редко обращаются или используют по сравнению с активными наборами данных, которые регулярно используются и обновляются в рамках текущих рабочих процессов ИИ. К таким «холодным» наборам можно отнести исторические данные, которые больше не используются или на которых не проводится обучение; долгосрочные данные о соответствии нормативным или юридическим требованиям; данные, используемые в экспериментальных целях или для предварительного обучения; неиспользуемые или отклоненные данные; а также синтетические данные, используемые для тестирования, бенчмаркинга или исследований вне производственного процесса ИИ.

Эффективное управление «холодными» данными в активном архиве необходимо для оптимизации ресурсов хранения и энергии, чтобы даже данные, имеющие лишь потенциальную ценность в будущем, можно было экономически эффективно хранить в течение неопределенного периода времени.

Влияние ИИ на архивы

Когда-то архивы считались хранилищами данных, к которым обращались лишь время от времени, если вообще обращались. Появление современного ИИ многое изменило. Практически все корпоративные данные могут быть ценными, если являются доступными механизму ИИ. Поэтому многие предприятия прибегают к архивированию, чтобы собрать данные организации в одном месте и сделать их доступными для инструментов ИИ и генеративного ИИ (GenAI).

Массивные архивные данные можно хранить в активном архиве по экономически выгодной цене и при очень низком уровне энергопотребления, при этом эти данные будут легко доступны в сети. Собираемые десятилетиями архивные данные могут быть проанализированы в рамках LLM или других алгоритмов машинного или глубокого обучения.

Интеллектуальное ПО для управления данными

Основой активного архива является интеллектуальный программный слой управления данными. Этот слой играет важную роль в автоматическом перемещении данных согласно заданным пользователем политикам туда, где они должны находиться в соответствии с приоритетами стоимости, производительности и рабочей нагрузки.

Высокоценные данные, к которым часто обращаются, могут оставаться в памяти. Другие данные могут храниться на твердотельных накопителях, дисках нижних уровней, а также в активном архиве на ленте или в облаке. Это позволит приложениям ИИ обрабатывать все эти данные без задержек, связанных с хранением содержимого за пределами организации или необходимостью его передачи туда, где ИИ сможет его обработать.

Поддержание устойчивости системы хранения данных

В результате ИИ-бума дата-центры становятся все больше, плотнее и энергоемче: в США на эту отрасль уже приходится почти 2% общего потребления электроэнергии. Эти тенденции, скорее всего, сохранятся, так как для удовлетворения потребностей высокопроизводительных вычислений (HPC), GenAI и других требовательных к ресурсам приложений применяется все больше графических процессоров.

Хранение «холодных» и редко используемых данных в активном архиве существенно влияет как на энергопотребление, так и на выбросы CO2. По данным Brad Johns Consulting, при необходимости хранения 100 Пб данных выбросы CO2 можно снизить на 58%, а количество электронных отходов на 53%, если хранить 40% этих данных на жестких дисках, а 60% переместить на автоматизированную ленточную библиотеку.

В ближайшие годы спрос на корпоративные СХД, несомненно, возрастет. Масштабный рост данных, вызванный ИИ, выявил необходимость эффективного управления данными от периферии до дата-центра и облака.

Такое управление лежит в основе успеха ИИ. Для того чтобы организации, реализующие инициативы в области ИИ, могли реализовать свой потенциал для достижения продуктивных и полезных результатов, они должны уметь обрабатывать, анализировать, коррелировать и делать выводы на основе огромных объемов информации. Если объемы данных превышают несколько петабайт, активный архив может обеспечить приложениям ИИ оптимальное сочетание доступности, производительности, энергоэффективности и доступности.

Инфраструктура для ИИ должна быть основана на хорошо спланированных хранении данных и рабочих процессах. В противном случае плохо спланированное управление данными негативно сказывается на расходах, безопасности данных, киберустойчивости, соблюдении законодательства, опыте клиентов, принятии решений, энергопотреблении и даже репутации бренда.

В эпоху ИИ эффективное управление данными является необходимой частью ключевых компетенций, которыми должны располагать организации для эффективной цифровой трансформации. И именно здесь активные архивы приносят пользу современному предприятию, основанному на ИИ.