Постоянный рост объёмов данных в последние годы породил колоссальные трудности в управлении этими данными и в их хранении. И заказчики, и ведущие разработчики ПО, и производители систем хранения (СХД) чётко осознали необходимость оптимизации и рационализации хранения. Современные системы должны обеспечить возможность хранения информации на разных уровнях в зависимости от её ценности, актуальности и критичности. Поскольку эти характеристики изменяются в ходе всего цикла существования информации, возникла необходимость в её классификации. Однако на крупных предприятиях с огромным объёмом данных даже после проведения такой классификации управлять ими вручную невозможно, поэтому потребовались инструменты, которые позволяют автоматизировать выполнение данной задачи по критериям, гибко задаваемым администратором. При этом под автоматизацией понимается то, что система, будучи корректно сконфигурированной, должна автоматически определять уровень хранения и тип хранилища для тех или иных данных в зависимости от их
свойств. В результате обеспечивается адекватный уровень обслуживания каждого приложения при существенном сокращении общих расходов, связанных с закупкой и администрированием ИТ-инфраструктуры.
Подавляющее большинство данных, генерируемых пользователями и ИТ-системами компаний и организаций, можно отнести к “фиксированному” контенту, основным свойством которого является то, что после создания (генерации) он используется только для “чтения”. К фиксированному контенту можно отнести различные цифровые данные: фотографии, отсканированные бумажные документы, электронные письма, чертежи, учётные карточки, рентгеновские снимки, записи о произведенных звонках и многое другое.
Именно для хранения таких данных, а точнее, для их архивирования была разработана концепция системы хранения фиксированного контента Content Addressable Storage (CAS). CAS — это основное хранилище любой фиксированной информации на протяжении всего её жизненного цикла. В зависимости от правил ведения архива конкретного заказчика она либо сохраняется в CAS навечно, либо впоследствии уничтожается.
Системы CAS существенно отличаются от классических систем архивирования на основе лент и оптических дисков, поскольку они способны в течение нескольких секунд извлечь из архива конкретные данные по заданным критериям. Все данные, хранящиеся в CAS, индексированы, и при помощи поисковой системы их можно найти и извлечь независимо от того, сколько времени они там хранились.
Для ведения электронного архива заказчики традиционно использовали библиотеки оптических дисков и магнитных лент. Однако и те и другие накопители имеют существенные недостатки, например, у них низкая физическая надёжность и ограниченный срок хранения. Поиск и извлечение архивных данных, хранящихся на лентах или оптических дисках, может продолжаться весьма долго и закончиться неудачей. Эти системы не обладают уровнем интеллекта, необходимым для управления хранимой информацией, который обеспечивают системы CAS.
В то же время стандартные дисковые массивы плохо подходят для использования в качестве аппаратной платформы электронного архива. Дело в том, что для разработчиков этого оборудования главные задачи — это обеспечение максимальной производительности при обработке транзакций и минимального времени отклика в базах данных, однако к архивным СХД предъявляются существенно иные требования. Для архивного хранения важнее такие параметры, как общая стоимость владения, административные затраты, сложность модернизации, поэтому что стандартные СХД отнюдь не оптимальны для применения в архивных решениях.
Исторически первой успешной реализацией концепции CAS стала система EMC Centera, которая состоит из двух частей: Back-Еnd и Front-Еnd. Back-Еnd выполняет основные функции по хранению данных, их защите и доступу к ним, в том числе обеспечение отказоустойчивости и гарантии аутентичности сохраняемых объектов.
Front-Еnd осуществляет запись данных и доступ к ним, а также ряд сервисных функций (индексирование и поиск данных, мониторинг ресурсов и т. п.). Доступ к данным, хранящимся на Centera, осуществляется через API-интерфейс, открытый для приложений третьих фирм.
CAS-система Centera обеспечивает максимальную интеграцию непосредственно с пользовательским приложением, например возможность переноса индексации и поиска по метаданным, специфичным для конкретного приложения на Centera, с обеспечением их сохранности при выходе из строя сервера приложений, и в то же время минимальные затраты на администрирование и расширение, поскольку Centera — это по существу отказоустойчивый “черный ящик” заданной емкости. Такие задачи, как управление томами, файловыми системами, дисками, мониторинг емкости и производительности перечисленных компонентов, перенос данных и т. д., в случае использования CAS полностью отсутствуют, а администрирование сводится лишь к мониторингу доступного пространства и аппаратных сбоев. Модернизация осуществляется простым добавлением узлов при практически неограниченной масштабируемости и совместимости оборудования разных поколений.