Опрошенные порталом ComputerWeekly эксперты обсуждают преимущества и недостатки хранения неструктурированных данных в локальной сети, в облаке и в нескольких местах (гибридный подход).
Предприятия сталкиваются с необходимостью хранить все большие объемы информации во все большем количестве форматов. Бизнес-данные больше не ограничиваются структурированными данными в упорядоченных базах данных или корпоративных приложениях. Компаниям приходится получать, хранить и работать с документами, электронной почтой, изображениями, видео, аудио и даже сообщениями в социальных сетях. Все они содержат информацию, способную улучшить процесс принятия решений.
Но это создает проблемы для ИТ-систем, которые разрабатывались с учетом структурированных, а не неструктурированных данных. Это связано с тем, что технологии, обеспечивающие эффективное хранение, например, баз данных, не очень хорошо подходят для больших файлов, высоких объемов данных и потребностей в долгосрочном архивировании неструктурированных данных.
По оценкам IDC и Gartner, около 80% новых корпоративных данных сегодня являются неструктурированными. Очевидно, что возможность хранить и анализировать эти данные приносит пользу бизнесу, а в некоторых случаях долгосрочное хранение требуется по соображениям соответствия нормативным требованиям. Однако традиционные технологии хранения не рассчитаны ни на объем, ни на разнообразие таких данных.
Как отмечает Сезар Сид де Ривера, вице-президент Commvault по системной инженерии, уже одно только различие в размерах файлов — например, видеофайла и текстового документа — создает проблемы для хранения. Кроме того, предприятиям приходится иметь дело с так называемыми «темными пулами данных», которые создаются или автоматически перемещаются, например, из центральной системы на устройство конечного пользователя.
Кроме того, данные генерируются и в других системах, не относящихся к традиционным ИТ, таких как приложения SaaS, конечные точки Интернета вещей (IoT) или даже потенциально в результате работы машинного обучения и искусственного интеллекта. Эти данные также необходимо находить, индексировать и хранить.
Это оказывает давление на инфраструктуру хранения. И предприятия все чаще приходят к выводу, что единый подход к хранению данных — локальный или облачный — не может обеспечить необходимые стоимость, гибкость и производительность. Это приводит к росту интереса к гибридным решениям или даже технологиям, таким как Snowflake, которые разработаны с учетом независимости от хранилища.
«Критериями, которые необходимо принимать во внимание, являются объем, гравитация данных (где они генерируются, где используются, обрабатываются или потребляются), безопасность, пропускная способность, нормативные требования, задержка, стоимость, скорость изменений и требуемая передача, — говорит Оливье Фреймбо, председатель совета директоров SNIA EMEA. — Основная проблема заключается не столько в хранении огромных объемов неструктурированных данных, сколько в том, как справиться с управлением этими данными».
Тем не менее, компаниям необходимо учитывать традиционные показатели производительности систем хранения, особенно ввод-вывод и задержки, а также стоимость, отказоустойчивость и безопасность каждой возможной технологии.
Управление неструктурированными данными на месте
Традиционным подходом к хранению неструктурированных данных на месте была иерархическая файловая система, предоставляемая либо через DAS, либо через выделенные NAS. В ответ на растущие потребности в хранении данных предприятия перешли на более крупные и масштабируемые системы NAS.
Как правило, приложения, требующие низкой задержки — потоковая передача мультимедиа или, в последнее время, обучение систем ИИ — хорошо обслуживаются оборудованием NAS на базе флэш-памяти от традиционных поставщиков. Но для очень больших массивов данных и из-за необходимости облегчить перемещение между локальными и облачными системами поставщики теперь предлагают локальные версии объектных хранилищ.
Крупные облачные провайдеры также предлагают локальные объектные технологии, чтобы компании могли воспользоваться преимуществами глобального пространства имен и функциями защиты данных, а также безопасности и производительности локального хранилища. Однако, как предупреждает SNIA, эти системы от разных поставщиков, как правило, не имеют функциональной совместимости между собой.
Основными преимуществами локальных систем хранения неструктурированных данных являются производительность, безопасность, а также соответствие требованиям и контроль — компании знают свою архитектуру хранения и могут управлять ею в деталях.
Недостатками являются стоимость, включая первоначальные затраты, отсутствие возможности масштабирования — даже у масштабируемых NAS возникают узкие места в производительности при очень больших объемах — и отсутствие избыточности и, возможно, отказоустойчивости.
Что дает переход на облачные технологии
Все это заставило компании обратить внимание на облачные системы хранения данных — в первую очередь по причине более низких первоначальных затрат и способности к масштабированию. Объектное хранение — а почти все облачные хранилища основаны на этой технологии — позволяет эффективно обрабатывать большие объемы неструктурированных данных. Глобальное пространство имен и способ разделения метаданных и данных повышают отказоустойчивость. Кроме того, производительность здесь приближается к производительности локальных хранилищ. Фактически, облачное объектное хранилище теперь достаточно хорошо подходит для многих бизнес-приложений, где ввод-вывод и особенно задержка не так важны.
Облачное хранение данных сокращает (первоначальные) затраты на аппаратное обеспечение и обеспечивает потенциально неограниченное долгосрочное хранение. Компаниям также не нужно создавать избыточные системы для защиты данных. Это можно сделать в рамках услуг облачного провайдера или, при правильной архитектуре, путем разделения данных между облаками нескольких поставщиков.
Поскольку данные уже находятся в облаке, их относительно просто связать с новыми системами, например, в сценарии аварийного восстановления, или подключить к новым клиентским приложениям через API. И при хранении данных в облаке пользователи практически не должны ощущать снижения производительности при перемещении по организации или удаленной работе.
К недостаткам облачных хранилищ данных относятся более низкая по сравнению с локальными хранилищами производительность, особенно для приложений с интенсивным вводом-выводом или нетерпимостью к задержкам, потенциальные трудности управления (любой может запустить облачное хранилище) и возможные скрытые расходы.
Несмотря на то, что облако часто рассматривается как способ сэкономить деньги, скрытые расходы, такие как плата за вывод данных, могут быстро свести на нет экономию средств. И, как предупреждает Фреймбо, хотя сейчас довольно легко перемещать контейнеры между облаками, это становится сложнее, когда они содержат собственные данные.
Гибридные варианты
В результате все большее число поставщиков предлагают гибридные технологии, которые могут сочетать преимущества локального хранилища с объектной технологией и масштабируемостью облачных ресурсов.
Эта попытка создать лучшее из двух миров хорошо подходит для неструктурированных данных из-за их разнообразной природы, различных размеров файлов и того, как к ним могут обращаться многочисленные приложения.
Система, которая может обрабатывать относительно небольшие текстовые файлы, такие как электронные письма, наряду с большими файлами изображений, и делать их с одинаковой эффективностью доступными для систем бизнес-аналитики, ИИ и пользователей, очень привлекательна для CIO и специалистов по управлению данными.
Кроме того, организации также хотят, чтобы в перспективе их технологии хранения данных поддерживали такие разработки, как контейнеры. Фраймбо считает, что переход гибридного облака на контейнеры, а не на виртуальные машины, является ключевым фактором для хранения неструктурированных данных в объектных системах хранения.
Гибридное облако предлагает возможность оптимизировать СХД в соответствии с рабочими нагрузками, сохраняя масштабируемые NAS, а также DAS и SAN там, где это необходимо приложению или из соображений производительности.
При этом приложения с более низкой производительностью могут иметь доступ к данным в облаке, и данные могут перемещаться в облако для долгосрочного хранения и архивирования. В конечном итоге данные могут беспрепятственно перемещаться в облако и из него, а также между облачными провайдерами, причем ни приложения, ни конечный пользователь не будут замечать этого.
Это уже происходит с помощью таких технологий хранения данных, как Snowflake, которая использует локальные и облачные хранилища и поддерживает неструктурированные данные. Другие поставщики, такие как Microsoft, расширяют свою поддержку гибридного хранения данных через службу интеграции данных Azure Data Factory.
Лучшее из всех миров впереди?
Однако идея по-настоящему нейтрального к местоположению хранилища еще не реализована, и не в последнюю очередь потому, что бизнес-модели облачных вычислений основаны на плате за передачу данных. Это может приводить к раздуванию расходов.
Действительно, недавнее исследование Aptum показало, что почти половина организаций планирует увеличить использование традиционных облачных хранилищ. Универсальной технологии для неструктурированных данных пока не существует.