Хранилища данных для задач искусственного интеллекта (ИИ) и машинного обучения (МО) не являются универсальными. Аналитическое ПО отличается от других видов программ и предъявляет иные требования к хранению в плане емкости, задержки, пропускной способности и быстроты операций ввода-вывода (IOPS). Портал ComputerWeekly предлагает рассмотреть эти ключевые характеристики, чтобы предприятие могло принять правильное архитектурное решение при выборе СХД.
В последнее время аналитика данных превзошла саму себя — она стала еще более информативной и интересной. Для борьбы с пандемией коронавируса Covid-19 правительства и органы, такие как Всемирная организация здравоохранения (ВОЗ), создали множество статистических и математических моделей. Предприятия применяют модели для прогнозирования постпандемических сценариев развития рыночной и экономической ситуации, муниципальные службы следят за автомобильным трафиком и перемещениями общественного транспорта, а фирмы используют ИИ, чтобы уменьшить рабочую нагрузку на перегруженные команды обслуживания клиентов и справиться с пиковым количеством онлайн-заказов. Все это предъявляет особые требования к хранению данных.
Аналитики Gartner еще до наступления пандемии предупреждали, что в ближайшие несколько лет расширение цифрового бизнеса приведет к беспрецедентному росту неструктурированных данных внутри предприятия. Чтобы превратить данные в идеи, расширенная аналитика нуждается в мощных вычислениях. МО и ИИ поднимают требования к вычислениям на новый уровень, потому что такие системы нуждаются в богатых наборах данных для обучения и быстром доступе к новым данным. Им может потребоваться возможность работы со многими петабайтами данных.
Очевидно, что интенсивно потребляющие данные приложения оказывают давление на системы хранения, но их требования могут отличаться в зависимости от типа ПО. «Приложения с интенсивным потреблением данных используют несколько архитектур хранения. Это связано с конкретными KPI для конкретных рабочих нагрузок, — говорит вице-президент Gartner по исследованиям Джулия Палмер. — Некоторые из этих рабочих нагрузок требуют низких сетевых задержек, тогда как другим требуется большая пропускная способность».
ИИ, МО и большие данные: требования к хранению данных
Все проекты в области больших данных и ИИ должны сочетать производительность, мощность и экономичность. Но это сочетание будет варьироваться в зависимости от приложения и того, на каком этапе жизненного цикла оно находится. Проекты, основанные на неструктурированных данных, особенно это касается изображений и видео, содержат большие одиночные файлы. Кроме того, ИИ-приложения, которые предназначены для наблюдения и распознавания лиц, геологических, научных и медицинских исследований, используют большие файлы и поэтому требуют СХД, оперирующих масштабом петабайтов. Чтобы эффективно выполнять свои задачи приложениям, которые работают с бизнес-данными, то есть ERP и ей подобными системами, может потребоваться всего несколько сотен мегабайтов. Так называемые сенсорные приложения, которые предназначены для технического обслуживания, ремонта и капитального ремонта на транспорте и в энергетике, могут работать с сотнями гигабайтов.
Между тем приложения с интенсивными вычислениями, предназначенными для обучения МО и плотных нейронных сетей, нуждаются в высокой пропускной способности и низкой задержке, говорит Палмер. Но помимо этого им также необходим доступ к масштабируемому недорогому хранилищу для потенциально больших объемов данных. Наиболее интенсивной с точки зрения сбора данных является фаза обучения или тренинга, причем для создания лучшей модели требуется большое количество данных.
Приложения ИИ и МО также обладают разными циклами запроса на хранение. Фаза обучения является наиболее интенсивной с использованием большого объема данных, и чем выше объем данных, тем более эффективна. В связи с этим система хранения должна идти в ногу с вычислительными движками, которые запускают алгоритм. Обучение модели требует высокой пропускной способности и низкой задержки.
IOPS — не единственная характеристика для СХД
После обучения ИИ-системы требования к СХД снижаются, потому что тогда модель обозревает уже только релевантные данные. На этом этапе отзывчивость становится более важнее, чем пропускная способность, и это является проблемой для ИТ-департаментов, потому что традиционные решения для хранения данных настроены на то, чтобы одинаково быстро обрабатывать операции как для последовательного, так и случайного ввода-вывода. Что касается аналитики данных, то типичные пакетные рабочие процессы должны максимально использовать для ускорения обработки вычислительные ресурсы.
Как следствие, большие данные и аналитические проекты лучше всего работают с распределенными данными, отмечает вице-президент Acronis по Северной Европе Ронан Маккартин. «Лучше всего для аналитики данных подходит распределенное хранилище, а такие технологии, как Hadoop или Spark — для анализа больших данных. С их помощью аналитик может обходить ограничения памяти и запускать задачи на нескольких машинах. Для обучения ИИ/МО и вывода результатов также требуется быстрое SSD-хранилище», — сказал он. Но SSD-технологии обычно слишком дороги для больших объемов данных и длительного хранения, тогда как необходимость репликации томов для распределенной обработки увеличивает расходы.
По словам старшего директора Dell Technologies Стивена Гилдердейла, организации сместили фокус внимания от ERP и CRM к более интенсивному применению неструктурированных данных. Также шагнула вперед и аналитика. Теперь она применяется не просто для изучения накопленных за определенное время данных («оглянуться назад, чтобы двигаться вперед») — сегодня все большее значение приобретают прогнозная аналитика и аналитика реального времени, которая в том числе применяется для анализа данных, собранных датчиками. Объемы данных здесь меньше, но чтобы вовремя поделиться с бизнесом результатом анализа, системе нужно обрабатывать данные очень быстро. Помимо этого разработчикам системы требуется обеспечить для нее высокую пропускную способность. Это побуждает архитекторов обратить внимание на Edge Computing, часто в сочетании с централизованными облачным хранилищем и вычислениями.
Методы организации систем хранения для ИИ/МО и их ограничения
Чтобы соответствовать требованиям, предъявляемым ИИ/МО , ИТ-менеджерам необходимо выбрать и совместить следующие типы хранилищ:
- высокая производительность — NVMe и флэш-память;
- большая емкость — высокопроизводительный HDD в сочетании с флэш-памятью/расширенным кэшированием;
- автономное хранение и хранение холодных данных — диск с оптимизированной емкостью, облачное хранилище, ленточный накопитель.
Аналитика и ИИ/МО — лучшие кандидаты для многоуровневого хранения, поскольку оно позволяет разработчикам систем размещать самые дорогие и высокопроизводительные ресурсы как можно ближе к вычислительным ресурсам, тогда как для архивирования данных применять хранилище большой емкости.
Архитектура также будет зависеть от типа данных, обрабатываемых системой. Gartner, например, предполагает, что лучшая схема хранения для работающих с неструктурированными данными ИИ/МО — это NVMe over Fabics, энергонезависимая память и распределенные файловые системы, и все это будет разворачиваться локально или с использованием гибридной облачной архитектуры. В то же время аналитические проекты, скорее всего, будут применять конвергентные хранилища файлов и объектов, а также гибридные модели. Это требуется для того, чтобы они могли со временем масштабироваться и воспользоваться преимуществами долгосрочного облачного хранения данных.
В зависимости от бизнес-вопросов, проекты могут обрабатывать данные, которые были собраны в течение нескольких часов или нескольких лет, поэтому архитекторам системы хранения следует предусмотреть возможность быстрого и экономичного обновления данных за минувшие периоды.
Аналитике реального времени требуется тесная взаимосвязь с источниками данных, вычислений и хранилищами. Это побуждает организации использовать облачные гипермасштабируемые услуги — это в первую очередь AWS, Azure и GCP — для выбора различных уровней производительности и хранения, а также для нескольких географических локаций. Однако универсального технологического решения не существует, и предприятию неизбежно придется идти на компромисс. «Рабочие нагрузки ИИ разнообразны, и некоторые из них принципиально отличаются от любых других рабочих нагрузок, которые организация могла выполнять в прошлом», — поясняет Палмер.
Аналитика и ИИ: создавать самому или покупать?
Крупным проектам в области ИИ и бизнес-аналитики потребуются значительные инвестиции в системы хранения, вычислительные мощности и сети, что вынуждает некоторые компании обратить внимание на облако, тогда как другие покупают аналитику как сервис. Тем не менее, большинство компаний будут применять приложения с интенсивным потреблением данных сочетая существующие и новые возможности. «Покупать технологии легко, но ИИ, МО и аналитика редко попадают или работают в идеальных, нетронутых средах, — предупреждает директор по евангелизации продуктов аналитической компании Alteryx Ник Джуэлл. — Реальность такова, что большинство аналитических систем построены на архитектурах, которые обладают зависимостями или долей наследия».
ИТ-директорам необходимо решить, чем для них является ИИ и расширенная аналитика — проектом или долгосрочной стратегией. Отдельные проекты, особенно те, где данные уже находятся в облаке, могут эффективно использовать облако или стороннее решение, но если бизнес хочет получить долгосрочную выгоду от аналитики, а затем от ИИ, ему необходимо подключить свои данные к аналитическим платформам. Чтобы сделать это, нужно правильно подобрать архитектуру хранилища.