Кристофер Тоцци, технологический аналитик Fixate.io, рассказывает на портале ITPro Today, как оптимизированные для искусственного интеллекта решения для хранения данных могут повысить производительность, надежность и экономическую эффективность рабочих нагрузок ИИ, обеспечив необходимое сочетание масштабируемости, скорости и гибкости данных.
Вы, возможно, знаете, что для рабочих нагрузок ИИ могут быть полезны специализированные типы вычислительных ресурсов, такие как GPU или FPGA. Но знаете ли вы, что оптимизированная для ИИ система хранения данных также является важным фактором для развертывания экономически эффективных и высокопроизводительных рабочих нагрузок ИИ?
Если нет, то вам, возможно, будет интересно узнать, какую роль играет СХД в рабочих нагрузках ИИ, и какие типы СХД могут оптимизировать производительность, надежность и стоимость ИИ.
ИИ и хранение данных: основы
Как и все типы рабочих нагрузок с постоянным хранением данных, ИИ нуждается в СХД, хотя способы их использования для разных типов рабочих нагрузок ИИ могут различаться. Общие примеры потребностей ИИ в хранении данных включают:
- Рабочие нагрузки генеративного ИИ нуждаются в хранении обучающих данных, пока модели находятся в процессе обучения.
- После обучения моделям генеративного ИИ может потребоваться временное хранение данных на время выполнения выводов (это процесс, в ходе которого модели генерируют содержимое на основе новых входных данных).
- Описательные и прогностические модели ИИ используют СХД для хранения данных, которые они анализируют — например, файлов журналов или документов — в поисках закономерностей.
В целом важно отметить, что не все рабочие нагрузки ИИ требуют значительных объемов постоянной памяти. Например, можно развернуть инструмент описательного ИИ, который получает потоковые данные в реальном времени, анализирует их в режиме реального времени, а затем записывает результаты в энергозависимую память (т. е. в оперативную). В этом случае ИИ не нужно хранить какую-либо информацию постоянно, поэтому ему не потребуется СХД.
Однако большинство рабочих нагрузок ИИ, скорее всего, потребуют значительных ресурсов хранения.
Оптимизация системы хранения данных для ИИ
В целом любой тип СХД может поддерживать рабочие нагрузки ИИ. Однако для оптимальной работы инструментов и служб ИИ лучше всего использовать СХД, обладающие следующими возможностями:
- Высокая скорость ввода-вывода, позволяющая рабочим нагрузкам ИИ быстрее обрабатывать данные.
- Масштабируемость, чтобы рабочие нагрузки ИИ не останавливались из-за нехватки места для хранения.
- Поддержка различных типов данных (как структурированных, так и неструктурированных), поскольку некоторые рабочие нагрузки ИИ будут нуждаться в доступе к нескольким типам информации.
- Возможность сжатия данных там, где это возможно, для снижения затрат на хранение.
- Поддержка резервного копирования и восстановления данных для снижения риска их потери.
И здесь конкретные требования к СХД будут различаться для разных типов рабочих нагрузок ИИ. Например, высокая скорость ввода-вывода менее важна для обучения моделей генеративного ИИ, чем для ИИ-аналитики реального времени, поскольку при обучении моделей обычно допускаются задержки.
Но суть в том, что в целом рабочие нагрузки ИИ лучше всего работают, когда они имеют доступ к специализированным типам СХД.
Варианты хранения данных ИИ
Варианты обеспечения рабочих нагрузок ИИ системами хранения могут быть самыми разными. Вот обзор распространенных подходов.
Облачное хранилище. Облачные хранилища, например сервисы объектного хранения, предоставляемые всеми основными публичными облаками, обладают преимуществом огромной масштабируемости. Они также отличаются низкой стоимостью, а в случае объектного хранилища в них можно хранить практически любые типы данных (файловые облачные хранилища в этом отношении менее гибкие).
Однако чтение и запись данных могут занимать больше времени из-за сетевых задержек и ограничений пропускной способности — поэтому облачные хранилища не идеальны для рабочих нагрузок ИИ, требующих максимальной скорости ввода-вывода.
Традиционное локальное хранилище. Локальный массив хранения данных, состоящий из обычных жестких дисков, относительно недорог в создании и обслуживании. Он также относительно высокопроизводителен, поскольку предоставляет рабочим нагрузкам ИИ прямой доступ к ресурсам хранения. Основным недостатком является ограниченная масштабируемость, поскольку вы не можете быстро добавлять дополнительные ресурсы хранения.
Твердотельные хранилища. Массивы хранения данных, построенные на основе твердотельных накопителей, обладают более высокой производительностью, чем обычные жесткие диски, но они дороже. Их целесообразно использовать для рабочих нагрузок ИИ, где ввод-вывод является главным приоритетом.
Выбор объектного или файлового хранилища для ИИ
Помимо выбора инфраструктуры хранения, организациям, внедряющим ИИ, необходимо выбрать тип системы хранения. Объектное хранилище, которое доступно в облаке, но может быть конфигурировано и локально с помощью таких решений, как OpenStack Swift, как правило, является наиболее гибким, поскольку позволяет хранить любые типы данных. Объектное хранилище идеально подходит в тех случаях, когда вы не знаете, какие типы данных вы будете предоставлять ИИ-сервисам. Например, если вы обучаете модель генеративного ИИ, используя огромный массив информации разных типов, объектное хранилище, скорее всего, будет лучшим вариантом.
Однако для рабочих нагрузок ИИ, которым требуется хранить данные в структурированном или упорядоченном виде, обычно более целесообразно файловое хранилище. Например, файловое хранилище может быть наиболее подходящим, если вы развертываете инструмент прогностического ИИ, основной задачей которого является анализ структурированных файлов журналов и запись результатов в другие файлы.
Будущее хранения данных для ИИ
На сегодняшний день оптимизация СХД для ИИ не является основным направлением деятельности их производителей. Но по мере роста числа внедрений ИИ ожидается увеличение инвестиций в решения для хранения данных, разработанные специально для ИИ. Различные потребности рабочих нагрузок ИИ в хранении данных означают, что универсального решения не существует, но варианты хранения, отвечающие потребностям ИИ, облегчат развертывание рабочих нагрузок ИИ, не позволив СХД стать слабым звеном.