Проблема хранения доводит вас до безумия? управление жизненным циклом может СТАТЬ более разумным подходом к накоплению информации
Брайан Фонсика
Билл Графф, старший менеджер по инфраструктуре компании CernerWorks - подразделения удаленного хостинга корпорации Cerner - пытается справиться с лавиной данных.
"Хранение является крупной статьей расходов в нашем бюджете. На сегодняшний день на наших дисках накопилось 1,5 Пб, и это в два с лишним раза превышает тот объем, который был у нас год назад, - говорит Графф. - Столь быстрый рост объема данных представляет для нас серьезную проблему".
Билл Графф:
“Производители устройст
хранения должны
предоставить больше
инструментов ILM”
Задача, которая встала перед Граффом, заключается в том, чтобы управлять этими данными с минимальными затратами: поддерживать доступность информации, обеспечивать выполнение соглашений об уровне обслуживания (Service Level Agreement, SLA) и не позволить ежедневно поступающему массиву информации исчерпать весь объем системы хранения.
CernerWorks использует методологию многоуровневого хранения на базе технологии Hewlett-Packard. Графф, который не может допустить, чтобы расходы на хранение превышали 17% средств, выделяемых компанией на решение технических проблем, распределяет корпоративные данные по пяти уровням хранения - подобно тому, как на почте раскладывают письма по ячейкам. Категория данных определяется тем, относятся ли они к производству, служат ли соблюдению требований законодательства и другим подобным целям и дорого ли обходится их хранение.
Такой подход, известный как ILM (Information Lifecycle Management - управление жизненным циклом информации), стал главной темой на конференции по проблемам хранения Storage Networking World, которая в начале апреля прошла в Сан-Диего (США).
Hitachi Data Systems (HDS), дочерняя фирма корпорации Hitachi, анонсировала на этой конференции "многоуровневую систему хранения в одном корпусе". Данный продукт относится к системам среднего уровня.
Обеспечьте нам хранение: статистика
Кроме того, компании Compellent Technologies и OnStor выпустили интегрированный продукт SAN/NAS (Storage Area Network/Network-Attached Storage), который может автоматически поддерживать многоуровневое хранение. Сотрудничество этих двух фирм позволит сократить расходы на хранение за счет перемещения данных между различными уровнями хранения.
Между тем компания StoredIQ анонсировала версию 3.6 своего сервера управления классификацией информации (Information Classification Management) ICM 5000. Этот продукт позволяет сделать важнейший шаг к классификации данных, которая имеет ключевое значение для ILM. Для ускорения классификации файлов и их содержания производить ее можно распределенно, создавая кластеры из четырех и восьми узлов.
А в ближайшее время проблемами ILM займется также HP. Для этого у нее появятся новые возможности в результате недавнего приобретения фирмы OuterBay, занимающейся архивированием баз данных. Принесет первые плоды и партнерство с Mendocino Software в области технологии CDP (Continuous Data Protection - непрерывная защита данных).
Hewlett-Packard представит новый продукт CDP, основанный на переработанной версии системы Mendocino RecoveryOne, которую она в настоящее время продает как реселлер на основе подписанного в прошлом году OEM-соглашения. Ожидается также, что компания сделает заявление относительно продукта HP StorageWorks RIM (Reference Information Manager) for Database Archiving, созданного на основе технологии OuterBay. Источники утверждают, что HP тесно интегрирует технологии Mendocino и OuterBay, чтобы упростить решения в области ILM.
Почему технологии ILM уделяется столько внимания? Когда речь заходит о хранении, менеджеры ИТ - такие, как Графф, Марти Колберн, главный технолог и исполнительный вице-президент Национальной ассоциации дилеров ценных бумаг (NASD), или Джо Фурмански, ведущий архитектор технологии в подразделении информационных систем медицинского центра Питсбургского университета (UPMC), - оказываются перед выбором: либо больше тратить на обеспечение хранения, либо более разумно подойти к управлению данными.
Контент - структурированный и неструктурированный - продолжает увеличиваться в объеме и приобретать все более конфиденциальный характер. Лавинообразный рост данных означает, что с экономической точки зрения уже не имеет смысла добавлять новые серверы и устройства хранения, чтобы управлять, например, почтовыми сообщениями и электронными документами.
Положение осложняется тем, что скромные бюджеты и сужающиеся интервалы времени, отводимого на резервное копирование, накладывают жесткие ограничения на ресурсы, которые многие использовали в прошлом, чтобы справиться с данными, растущими как грибы после дождя.
Теперь организации вынуждены искать более разумные способы удовлетворения своих потребностей в хранении и информации. Это открывает путь для ILM, которое может помочь распределить данные по различным уровням в зависимости от их ежедневно меняющегося значения для пользователей.
"Если вы реализовали ILM-решение, в идеале оно должно позволить клиенту приобретать устройства хранения более разумно, чем прежде", - говорит Чарльз Кинг, аналитик из компании Pund-IT Research.
С точки зрения Кинга, проблема с идеальным хранением заключается в том, что значительное количество потенциальных компонентов ILM, таких, как объединение архивирования потоков работ с архитектурой многоуровневого хранения, пока что отсутствует.
"Нам приходится заниматься архивированием и реализацией подлинного "управления жизненным циклом данных", потому что наши клиенты не могут ждать по полчаса, пока будет восстановлен хранящийся на магнитной ленте архив. Он нужен им немедленно, - рассказывает Графф. - Те, кто обеспечивает хранение, должны предоставить дополнительные инструменты, соответствующие концепции ILM. Это приобретает важнейшее значение".
Однако продукты сами по себе проблемы не решают. Компаниям следует более тесно связать ILM с бизнес-процессами, которые определяют маршрутизацию и использование данных. Что касается организаций, оказывающих финансовые услуги, таких, как вашингтонская NASD, то здесь ILM должно обеспечивать соблюдение требований законодательства, анализировать, быстро сортировать и размечать данные, поступающие от брокеров, расчетных центров и других участников рынка финансовых услуг.
"Чтобы создать рабочую среду для ILM, нужно понимать степень важности данных, т. е. как они будут использоваться, - поясняет Колберн из NASD. - Предназначены ли они для аналитиков? Или для составления отчетности? Как часто к ним будут обращаться? Вы должны знать, как будут использоваться данные во всей организации. Это приобретает важнейшее значение, когда вы приступаете к организации управления полным жизненным циклом данных".
Использованию данных в NASD уделяют особенно пристальное внимание, учитывая роль этой ассоциации как главного регулятора отрасли, осуществляющей торговлю ценными бумагами. Она контролирует работу более чем 5100 брокерских контор, примерно 115 940 филиалов и около 657 800 брокеров.
Колберн говорит, что NASD руководствуется действующими правилами, которые требуют, чтобы определенная информация, приходящая от фирм - членов ассоциации, в определенные моменты времени вводилась в ее информационные системы. Поступающие данные помещаются в системы хранения и вводятся в те системы представления информации, которыми оперирует NASD. Затем они используются для составления отчетов и проведения анализа в соответствии с требованиями законодательства.
Этот процесс определяется степенью актуальности данных. Основная часть информационного массива NASD содержится на операционном уровне или в производственной среде - на первом уровне хранения. Для сравнения: второй уровень используется при разработке приложений и механизмов, для которых необходимы данные за длительный период времени, - таких, как восстановление после катастроф.
NASD использует в своей SAN системы EMC Symmetrix для наиболее важных данных и хранения уровня 1 и системы EMC Centerra для архивирования электронной почты. На уровне хранения 2 организация применяет системы EMC Clariion (в процессе разработки приложений) и в настоящее время изучает, как в той же среде работают системы StorEdge 6920 производства Sun Microsystems.
Найти правильное соотношение между возможностями бюджета и текущими и потенциальными требованиями ILM с учетом прогнозируемого роста бизнеса - все равно что пройти по канату.
"С точки зрения бюджета совершенно ясно, что вы должны представлять, какой ожидается рост и как используется информация, - говорит Колберн. - Я думаю, что это подскажет вам, как распределить расходы по отдельным статьям. Вот к чему мы стремимся. Мы учитываем требования законодательства и что нам нужно для их соблюдения. От этого зависит, как будет выглядеть наш бюджет".
Другие компании рассматривают ILM как способ выкроить из ограниченных бюджетов средства на организацию хранения. Расходы UPMC на системы хранения ежегодно растут на 25%, хотя объем данных увеличивается на 59%. "Вот какие средства нам выделяют. Что бы мы ни делали и чего бы от нас ни требовали, нам не позволяют выйти за эти пределы", - сказал Фурмански.
UPMC подписал с IBM соглашение сроком на восемь лет и стоимостью 402 млн. долл., в соответствии с которым IBM окажет этому медицинскому центру помощь в преобразовании его корпоративной архитектуры из серверов и систем хранения в новую, основанную на ILM и позволяющую обращаться к ней по мере необходимости.
Как рассказал Фурмански, после некоторой "инвентаризации имущества", в ходе которой были собраны данные о степени использования различных систем на базе AIX, Solaris и Windows в качестве хранилища данных и удалена редко используемая информация, UPMC предпочел объединить все системы хранения в одну крупную сеть SAN, подключенную непосредственно к контроллеру виртуализации IBM TotalStorage SVC (SAN Volume Controller).
"В действительности мы только начинаем осознавать, насколько наши нынешние представления о хранении отличаются от прежних. Это касается управления, выделения ресурсов и коллективного доступа к хранению в масштабах предприятия", - говорит он.
Создавая упрощенное отображение наиболее сложных элементов инфраструктуры хранения UPMC - а она хранит 350 Тб данных, - SVC облегчает поиск доступных ресурсов и ликвидирует те участки, где прежде большие объемы информации могли размещаться на неподходящем для этого оборудовании.
Первоначально центр UPMC планировал использовать IBM TotalStorage DS8300 для хранения медицинских записей в электронной форме, административной информации и личных дел сотрудников, а также дисковую систему среднего класса DS6800 и системы DS4000 и DS4800 для создания соответственно третьего и последнего уровней хранения на недорогих дисках SATA (Serial ATA).
Но ввод контроллера SVC внес изменения в эти планы. Он позволил UPMC выделить различные уровни хранения в отдельную группу сервисов, не связанных с конкретным оборудованием или устройствами хранения.
Графф из CernerWorks рассказал, что благодаря подходу с позиций ILM он составил более четкое представление об управлении хранением, но многое еще предстоит сделать.
Менеджеры ИТ, такие,
как Марти Колберн
из NASD (слева) и
Джо Фурмански из
UPMC, рассчитывают
воспользоваться
преимуществами
многоуровневого
хранения
Созданная в 2000 г., уже к 2004-му база данных по клиентам CernerWorks не помещалась в двух центрах обработки данных. Необходимость поддерживать 100 организаций, оказывающих медицинские услуги, выявила пробелы в SAN-архитектуре бизнес-подразделения, привела к разбуханию системы хранения, вызвала необходимость сложных перекрестных переключений и усложнила управление.
Для хранения уровня 1 в CernerWorks используются дисковые массивы старшего класса HP XP1024 и XP12000. На этом высшем уровне хранятся жизненно важные производственные данные - информация о клиентах, доступ к которой обеспечивается постоянно. Действует категорическое требование, чтобы устройства первого уровня можно было модернизировать без нарушения работы системы.
На уровне 2 применяются дисковые массивы среднего класса HP Enterprise Virtual Array - EVA5000 и EVA8000. Здесь хранятся копии неиспользуемых данных. Эти устройства могут использоваться разработчиками.
При создании 3 уровня CernerWorks рассматривает в качестве одного из вариантов решение HP Medical Archiving Solution, чтобы хранить офлайновые образы документов с использованием технологии PACS (Picture Archiving and Communication System - система архивирования изображений и обеспечения связи). На уровне 4, предназначенном для хранения резервных копий, используются системы HP StorageWorks 6510 Virtual Library System (для быстрого восстановления данных за последние семь дней) и EMC Legato (для более длительного хранения). Наконец, пятый уровень представлен ленточными накопителями производства HP и IBM. Он служит для долгосрочного удаленного хранения. Имеется в виду возможность восстановления после катастроф, сказал Графф.
Одна из очередных масштабных задач CernerWorks заключается в развертывании единого пакета централизованного управления, чтобы повысить качество управления многоуровневой системой хранения. CernerWorks изучает инструменты управления ресурсами хранения, такие, как HP Storage Essentials.
Но даже это не позволит Граффу свободно вздохнуть. CernerWorks планирует открыть два новых центра обработки данных в нынешнем году и еще два - в следующем.