Опрошенные порталом ComputerWeekly эксперты обсуждают, что необходимо для искусственного интеллекта и машинного обучения в плане хранения данных, а также плюсы и минусы блочных, файловых и объектных систем для хранения и доступа к очень большим объемам зачастую неструктурированных данных.
ИИ и МО обещают преобразовать целые области экономики и общества, если уже не делают этого. От беспилотных автомобилей до ботов, обслуживающих клиентов, системы на основе ИИ и МО определяют следующую волну автоматизации бизнеса.
Они также являются крупными потребителями данных. После примерно десятилетия относительно стабильного роста объема данных, используемых моделями ИИ и МО, этот рост становится экспоненциальным, поскольку ученые и инженеры стремятся повысить точность своих систем. Это предъявляет новые, порой экстремальные требования к ИТ-системам, включая СХД.
«ИИ, МО и аналитика используют огромные объемы неструктурированных данных, — говорит Патрик Смит, технический директор Pure Storage в EMEA. — Это мир неструктурированных данных, а не блоков или баз данных».
Большие наборы данных используют для обучения моделей ИИ и МО, в частности, чтобы получать более точных прогнозы. Как отмечает Вибин Виджай, специалист по ИИ и МО компании OCF, базовая пробная модель на одном сервере может иметь точность 80%. При обучении на кластере серверов точность повысится до 98% или даже 99,99%. Но это предъявляет свои требования к ИТ-инфраструктуре. Почти все разработчики работают исходя из того, что чем больше данных — тем лучше, особенно на этапе обучения. «Это приводит к появлению огромных массивов данных, как минимум петабайтных, которыми организация вынуждена управлять», — говорит Скотт Бейкер, маркетинговый директор IBM Storage.
В результате СХД могут становиться узким местом. Новейшие передовые аналитические приложения активно используют CPU и особенно кластеры GPU, соединенные с помощью таких технологий, как Nvidia InfiniBand. Разработчики даже рассматривают возможность подключения систем хранения непосредственно к графическим процессорам.
«В рабочих нагрузках ИИ и МО на этапе обучения обычно используются мощные GPU, которые стоят дорого и пользуются большим спросом, — говорит Брэд Кинг, соучредитель и технический директор компании Scality. — Они позволяют пережевывать огромные объемы данных и часто могут простаивать в ожидании новых данных из-за ограничений систем хранения».
Задача состоит в том, чтобы обеспечить высокопроизводительное хранение данных в масштабе и в рамках бюджета. Как отмечает Виджай, проектировщики могут захотеть установить все системы хранения на высокопроизводительной флэш-памяти Tier 0, но это редко, если вообще возможно, практически осуществимо. А учитывая то, как работают ИИ и МО, особенно на этапах обучения, это может и не понадобиться.
Вместо этого организации развертывают многоуровневые системы хранения, перемещая данные вверх и вниз по уровням, от флэш-памяти до облака и даже ленты. «Вы получаете доступ к нужным данным, в нужном месте и по нужной цене», — говорит Виджай.
Фирмам также необходимо подумать о сохранении данных. Специалисты по изучению данных не могут предсказать, какая информация понадобится для будущих моделей, а аналитика улучшается при доступе к историческим данным. Экономически эффективное и долгосрочное архивирование данных по-прежнему важно.
Какие виды хранения данных подходят лучше всего
Не существует единого варианта, удовлетворяющего все потребности в хранении данных для ИИ, МО и аналитики. Традиционное представление о том, что аналитика — это высокопроизводительная рабочая нагрузка с большим количеством операций ввода-вывода, лучше всего подходящая для блочного хранения, должно быть сбалансировано с объемами данных, типами данных, скоростью принятия решений и, конечно, бюджетом. Среда обучения ИИ предъявляет иные требования, чем веб-рекомендательный механизм, работающий в режиме реального времени.
«Блочные системы хранения данных традиционно хорошо подходили для высокопроизводительных рабочих нагрузок с большим количеством операций ввода-вывода, где важна низкая задержка, — говорит Том Кристенсен, глобальный советник по технологиям Hitachi Vantara. — Однако с появлением современных аналитических рабочих нагрузок, включая ИИ, МО и даже озера данных, традиционные блочные платформы оказались неспособны удовлетворить спрос на масштабирование, который создает вычислительная часть этих платформ. Поэтому для поддержки этих современных рабочих нагрузок необходимо использовать файловый и объектный подходы».
Хранилище с блочным доступом
Системы на основе блоков сохраняют преимущество в работе с необработанными данными, поддерживают централизацию данных и расширенные функции. По словам Бейкера, блочные массивы поддерживают API, которые разработчики ИИ и МО могут использовать для улучшения повторяющихся операций или даже разгрузки массивов от обработки данных, специфичных для хранения. Было бы неправильно полностью исключать блочные хранилища, особенно там, где требуются высокая скорость ввода-вывода и низкая задержка.
В противовес этому существует необходимость создания для блочного хранилища специальных сетей хранения — обычно Fibre Channel — и накладных расходов, связанных с тем, что блочное хранилище полагается на файловую систему вне массива (на базе хоста). Как отмечает Бейкер, все становится еще сложнее, если ИИ-система использует более одной ОС.
Файл и объект
В результате системные архитекторы отдают для ИИ и МО предпочтение файловым или объектным СХД. Объектное хранилище создается в расчете на большую, петабайтную емкость и масштабируется. Оно также предназначено для поддержки таких приложений, как Интернет вещей (IoT).
Помехоустойчивый код обеспечивает защиту данных, а расширенная поддержка метаданных в объектных системах может принести пользу приложениям ИИ и МО.
В то же время объектные СХД отстают от блочных по производительности, хотя этот разрыв сокращается благодаря новым высокопроизводительным объектным технологиям. Кроме того, различна поддержка приложений: не все инструменты ИИ, МО и аналитики поддерживают интерфейс S3 от AWS, который является фактическим стандартом для объектных систем.
Облачное хранилище
Облачное хранилище в основном является объектным, но предлагает и другие преимущества для проектов ИИ и МО. Главными из них являются гибкость и низкие первоначальные затраты.
Основными недостатками облачного хранилища являются задержка и потенциальные затраты на выгрузку данных. Это хороший выбор для облачных систем ИИ и МО, но его использование сложнее оправдать в тех случаях, когда данные необходимо извлекать и загружать на локальные серверы для обработки, поскольку это увеличивает затраты. Но облако экономически выгодно для долгосрочного архивирования данных.
Что рекомендуют поставщики СХД
Неудивительно, что поставщики не рекомендуют единое решение для ИИ, МО или аналитики — количество приложений слишком велико. Вместо этого они рекомендуют изучить бизнес-требования, лежащие в основе проекта, а также заглянуть в будущее.
«Понимание того, какие результаты или бизнес-цели вам нужны, всегда должно быть вашей первой мыслью при выборе способа управления и хранения данных, — говорит Пол Брук, директор по аналитике данных и ИИ Dell EMEA. — Иногда одни и те же данные могут понадобиться в разных ситуациях и для разных целей».
Он обращает внимание на конвергенцию блочного и файлового хранилищ в одном аплайенсе, а также на системы, способные преодолеть разрыв между файловым и объектным хранилищем с помощью единой файловой системы. Это поможет разработчикам ИИ и МО благодаря более общей архитектуре хранения данных.
Технический директор Cloudian Гэри Огасавара ожидает конвергенции между высокопроизводительной пакетной обработкой данных в хранилище и архитектурами потоковой обработки данных. Это подтолкнет пользователей к объектным решениям.
«Блочное и файловое хранилища имеют архитектурные ограничения, которые делают масштабирование за пределами определенного уровня нерентабельным, — говорит он. — Объектное хранение обеспечивает безграничную, высокорентабельную масштабируемость. Расширенные возможности метаданных объектного хранилища — еще одно ключевое преимущество в поддержке рабочих нагрузок ИИ/МО».
Также крайне важно планировать хранение данных с самого начала, поскольку без адекватного хранилища будет страдать производительность проекта. «Для успешной реализации передовых рабочих нагрузок ИИ и МО правильная стратегия хранения данных не менее важна, чем выбранная вами передовая вычислительная платформа, — говорит Кристенсен. — Недостаточная мощность сложной распределенной и очень дорогой вычислительной платформы приведет к снижению производительности, ухудшению качества результатов и, в конечном счете, увеличению сроков создания ценности».