Объём обрабатываемых данных в мире непрерывно растет, и в последнее время, как свидетельствуют аналитики, рост происходит по экспоненциальной кривой, так что каждые пару лет этот объем увеличивается в два раза. В связи с этим остро встает вопрос, где и как хранить такие объемы данных.
В общем объеме большую часть занимают различные медиа-, файловые и архивные данные. А с учетом массового использования социальных сетей и файловых хранилищ этот сегмент будет расти еще сильнее, а значит, необходимо обеспечить их размещение, структурирование и сохранность.
Развитие рынка универсальных хранилищ определяется целым рядом ключевых факторов.
- ИТ-инфраструктурой необходимо управлять в условиях постоянного существенного роста хранимых и обрабатываемых данных.
- Выстраивание организационных процессов в компаниях зачастую основано на создании централизованных хранилищ информации.
- Тенденции развития ИТ-инфраструктуры предприятий (виртуализация серверов и рабочих мест) требуют централизованных хранилищ.
- Необходимо повышать эффективность использования уже имеющихся ресурсов и оптимизировать инвестиции в новое аппаратное обеспечение.
Приведенные факторы достаточно универсальны и имеют отношение практически к любому предприятию, оперирующему существенными объемами данных и достигшему определенного уровня зрелости ИТ и бизнес-процессов. В частности, решения по универсальному хранению больших объемов данных востребованы у компаний, работающих в телекоммуникационной сфере, финансовом или госсекторе.
Среди основных выгод внедрения универсальных хранилищ файлов и архивов можно указать следующие.
- Повышение производительности ИТ-инфраструктуры хранения данных без необходимости приобретения дорогостоящего оборудования.
- Возможность гибко, безболезненно и оперативно балансировать ресурсы хранения между потребителями.
- Увеличение доступности данных.
- Возможность построения отказоустойчивых и катастрофоустойчивых систем.
- Возможность перехода к технологиям облачного хранения данных.
Как считают специалисты RedSys, в настоящий момент есть несколько основных вариантов решения задачи хранения файловых и архивных данных. Давайте рассмотрим их и попытаемся определить, в каких случаях их применение может быть целесообразным.
Классические подходы к хранению файлов и архивов
Каковы основные решения по организации файлового и архивного хранения? На сегодняшний момент самые распространённые и простые из них — это решения на базе файловых серверов или NAS-устройств хранения различного уровня. Современные СХД, используемые в качестве хранилищ файлов, имеют механизмы разноуровневого хранения, что позволяет им автоматически размещать файлы на дисках с разной производительностью в зависимости от частоты запроса пользователей. Однако такие решения имеют предел масштабирования, определенный производителем оборудования, и надо учитывать, что все данные хранятся на обычных дисковых системах, так что стоимость хранения получается довольно высокой. У этих решений есть и ещё один недостаток — сложность структурирования информации и обеспечения версионности хранимых файлов. Для некоторых типов данных необходимо поддерживать версионность хранения файлов, чтобы пользователь при необходимости мог обратиться к предыдущей версии файла. Кроме того, нужно учитывать, что поскольку все данные хранятся на СХД, то защищены они только от аппаратного сбоя соответствующим уровнем RAID, а этого недостаточно: нужна также защита от логических сбоев и от ошибок пользователей. Значит, необходимо обеспечивать сохранность данных с помощью резервного копирования, а это требует определённых ресурсов для хранения резервных копий.
По мнению экспертов RedSys, более современными являются решения на базе технологии иерархического хранения данных (HSM). Они позволяют обеспечивать многоуровневое хранение и автоматически распределять данные между быстрыми и медленными уровнями. Рассмотрим такое решение на примере трёхуровневой архитектуры: на первом уровне используются быстрые твердотельные носители, на втором — обычные жесткие диски и на третьем — ленточные библиотеки. В результате наиболее востребованные данные или те, к которым предъявляются жесткие требования по времени доступа, располагаются на первом уровне, на твердотельных носителях. На обычных дисках расположены менее востребованные данные, а те, надобность в которых возникает совсем уж редко, хранятся на ленточных носителях. На лентах же сразу размещаются архивные данные, которые требуют длительного хранения и могут быть востребованы лишь от случая к случаю. Все процессы переноса и возврата файлов полностью автоматизированы, и для пользователей не имеет значения, где размещаются нужные им файлы. Единственное, что они могут заметить, — это разная скорость получения данных.
Такое решение дает широкие возможности по настройке прав и квот доступа пользователей и правил переноса данных между уровнями. Можно использовать правила перемещения между уровнями за счет анализа любых атрибутов файлов, таких, например, как время последнего доступа, дата изменения, частота обращения и многие другие. Дополнительным преимуществом подобных решений является то, что они обеспечивают версионность хранимых файлов и имеют встроенные механизмы для резервного копирования.
Решения этого типа обладают неплохими возможностями масштабирования, поскольку они позволяют использовать практически любые дисковые системы хранения для верхних уровней иерархии и ленточные библиотеки для нижних уровней.
Недостатком же их являются более высокие начальные затраты на оборудование и ПО — ведь здесь требуются дорогостоящие системы хранения данных и ленточные библиотеки; однако при большом объеме хранимых данных совокупная стоимость владения такими решениями будет ниже, поэтому их использование целесообразно, когда объем данных составляет сотни терабайт или даже петабайт.
Новые решения для хранения файлов и архивов
Технология, которая получила развитие в предыдущие годы, а в последние пару лет стала одной из краеугольных в сегменте инфраструктуры хранения данных, — это программно-определяемое хранилище (Software-Defined Storage, SDS).
Преимуществом SDS является независимость от аппаратного обеспечения и от его совместимости, поскольку вся логика хранения данных реализуется с помощью специального ПО. Для организации в основном используются аппаратные серверы или простые системы хранения данных, причем требования к производительности аппаратных средств невысоки, главное же требование предъявляется к количеству дисков, на которых и будет организовано хранение.
Всё оборудование в составе хранилища объединяется с помощью специального ПО, которое управляет размещением файлов между серверами, обеспечивает доступ к ним и отказоустойчивость. Отказоустойчивость для файлов, хранящихся в системе, в большинстве случаев реализуется двумя способами:
- дублированием, то есть, созданием нескольких копий каждого файла, размещаемых физически на разных серверах хранения (так называемый фактор репликации);
- использованием механизмов контроля целостности файла.
Отказоустойчивость же самой системы сохраняется до тех пор, пока на случай выхода какого-то сервера из строя остаётся достаточно места для хранимых файлов на остальных серверах. Главное преимущество этой технологии в том, что на простом и недорогом оборудовании, с помощью специализированного ПО управления получается система хранения данных Enterprise-уровня с хорошими функциональными возможностями и практически неограниченными возможностями масштабирования.
Решения на базе SDS позволяют также организовать иерархию хранимых данных с распределением файлов на серверах хранения между жесткими дисками с различными характеристиками. В качестве недостатка можно отметить, что многие решения на текущий момент не позволяют использовать ленточные библиотеки на нижнем уровне иерархии. А это в свою очередь может усложнить масштабирование, поскольку даже с учетом удешевления дисковых носителей самую низкую себестоимость хранения обеспечивают ленточные носители.
Доступ к данным может предоставляться как на файловом или блочном уровне, так и на объектном. При объектном доступе основной сущностью хранения является объект. Он содержит контент и все возможные дополнительные метаданные, ассоциированные с ним. Работа с объектными хранилищами для приложений, оперирующих именно объектами, позволяет существенным образом оптимизировать (упростить и ускорить) доступ к данным.
Стоимость решений на базе технологии программно-определяемого хранилища (SDS) относительно невысока, поскольку здесь не требуется высокопроизводительное и дорогостоящее оборудование и существует много свободно распространяемого ПО для их организации. Соответственно подобные решения целесообразно применять, когда компании нужно произвести быстрые изменения в ИТ-инфраструктуре, быстрое масштабирование, а также если в её инфраструктуре много оборудования, которое функционально не соответствует стоящим задачам, но пригодно для создания программно-определяемого хранилища.
Облачное хранение данных
В последние годы на рынке чётко определился тренд по использованию облачных хранилищ данных, публичных или частных. Основным преимуществом облачных технологий является полное абстрагирование от аппаратной реализации хранения данных, наличие таких интерфейсов, которые позволяют разработчикам создавать приложения, изначально интегрированные с облачными системами хранения. Специалисты RedSys отмечают, что облачные технологии естественным образом решают вопросы обеспечения отказо- и катастрофоустойчивости.
При использовании публичных облачных хранилищ доступ к данным осуществляется через глобальную сеть Интернет, а сами данные размещаются на ресурсах сторонних провайдеров совместно с данными других пользователей и организаций. Преимуществом таких хранилищ является возможность постепенного роста доступных для хранения объемов. Это обуславливает привлекательность облачного хранения для небольших молодых компаний, не желающих или не имеющих возможности делать на старте существенные инвестиции в инфраструктуру хранения данных.
Главным же недостатком публичных облаков является вопрос, связанный с безопасностью и надежностью хранения данных, а также к обеспечению требований регуляторов.
Частное облако представляет собой инфраструктуру хранения для использования внутри одной компании. При такой реализации значительно повышается уровень безопасности и контроля, но и расходы на программное и аппаратное обеспечение при использовании этого подхода значительно выше. Облака могут функционировать на ИТ-инфраструктуре самой компании или на инфраструктуре поставщика услуги. Но в обоих случаях облачное хранилище строится на основе какой-то одной из перечисленных выше технологий для хранения данных либо на основе их комбинации.
Рынок SDS будет активно расти в ближайшие пять лет. В 2016 г. его объем составил в денежном выражении 4,72 млрд. долл., а в
В число основных поставщиков SDS-систем аналитики включили компании IBM, Dell, EMC Corporation, Fujitsu, HPE, Citrix Systems, Netapp, Seagate Technology и Scality, VMware, Western Digital Corporation.
Как утверждают специалисты RedSys, наиболее значительные внедрения SDS-систем на вертикальных рынках ожидаются в области здравоохранения.
СПЕЦПРОЕКТ КОМПАНИИ REDSYS