Жесткое регулирование и такие технологии, как виртуализация и вычисления в “облаке”, меняют способ подготовки компаний к катастрофам
Подготовка системы хранения к катастрофе любого типа всегда была делом относительно простым. ИТ-персонал должен копировать всю важную бизнес-информацию на специальные дисковые серверы каждую ночь или каждые выходные, переводить более старую информацию на архивные ленты раз в неделю либо раз в месяц, а затем вызывать специальную службу, которая увозила бы все это и хранила бы в темном прохладном помещении, чтобы никто и никогда эту информацию больше не видел.
Теперь ситуация усложнилась, поскольку боязнь потерять важную информацию становится все сильнее. Планированием, установкой, развертыванием и тестированием систем восстановления сегодня занимаются компании любого размера – от самых больших до самых маленьких. С тех пор как в конце 90-х годов Интернет превратился в основную бизнес-среду, восстановление после катастрофы стало жестко регулируемой частью бизнеса компании из-за возросшего числа судебных разбирательств и заботы о ненанесении вреда другим лицам.
Объем рынка средств для восстановления данных сегодня достиг 20 млрд. долл. Его стремительный рост стимулируется двумя факторами: возросшим числом природных катастроф во всем мире и появившимися новыми правилами работы с информацией в США и Европе.
Обновленные федеральные правила в США (Federal Rules of Civil Precedure, FRCP), закон Сарбейнса -- Оксли от 2002 г. и другие нормы и правила полностью изменили подход компаний к хранению бизнес-информацию и управлению доступом к ней. Например, нормы FRCP, одобренные Верховным судом США в апреле 2006-го и введенные в действие в декабре того же года, гласят, что любая компания должна быстро предоставить данные по требованию суда. Это означает, что любой электронный документ – электронное письмо, мгновенное сообщение, финансовый отчет, файл регистрации, голосовая почта и все текстовые и графические документы – должен храниться и легко восстанавливаться.
Кроме того, компании должны быть в состоянии предъявить суду или аудиторам действующую систему для работы с данными, большую часть которых составляет личная информация пользователей, такая как адреса и телефоны, номер социальной страховки, кредитная история.
Поэтому процессы восстановления информации должны становиться все более автоматизированными и безопасными.
Компания Interphase Systems помогает клиентам планировать и управлять ИТ-инфраструктурой и ее виртуализацией, совместимостью с нормами и правилами, восстановлением после катастроф и обеспечением непрерывности бизнеса.
“Ураган “Катрина”, события 11 сентября, цунами в Таиланде – все эти события еще острее поставили вопрос о важности хорошего плана восстановления после катастрофы и его обсуждения с клиентами, -- сказал представителям eWeek Лев Смит, менеджер этой компании по продажам решений в области виртуализации. -- Сегодня клиенты поняли, что важно знать не только то, что катастрофа произойдет, но и то, когда это случится”.
В результате компании вкладывают все больше средств в ПО для восстановления после катастрофы, оборудование и услуги.
Одной из главных движущих сил в прогнозировании возможности той или иной катастрофы стала атака террористов 11 сентября 2001 г.
“Мне было очень жаль те компании, которые тогда потеряли буквально все, -- подчеркнул Смит. -- Но это был неплохой урок для бизнеса, поскольку нельзя нормально работать без прозрачной, работоспособной и могущей быть быстро введенной в действие системы восстановления информации. Три этих параметра надо всегда принимать во внимание”.
Все годы после катастрофы 11 сентября серверы и системы хранения данных дешевели, а их производительность росла. Автоматизация важнейших процессов стала почти обязательной в сфере восстановления после аварий, что упрощает установку и развертывание таких систем.
“Сегодня оборудование стоит совсем не столько, сколько оно стоило прежде, -- заявил Смит. -- Подешевело ли оно? Да. Возросла ли его мощность? Без сомнения. Но если вы посмотрите на технологию, которая сегодня определяет производительность, – я имею в виду виртуализацию – то это самое сильное продвижение вперед, которое мы видели за последние 10--15 лет в области восстановления данных”.
Фактор виртуализации
Сегодня виртуализация – это основной путь, по которому идут компании для консолидации оборудования в центрах обработки данных, снижения энергопотребления и затрат на охлаждение, а также выбросов диоксида углерода. Уменьшение размеров ресурсов, которое несет с собой виртуализация, открывает перед ИТ-менеджерами широкие возможности в плане стратегий восстановления информации после аварий.
“С помощью виртуализации в центрах обработки данных (а также и в системах восстановления информации после аварии) вы можете всё делать быстрее и эффективнее, -- пояснил Смит. -- Например, с точки зрения независимости оборудования мне теперь нет необходимости полностью дублировать основной центр обработки данных в резервный центр восстановления. Достаточно сдублировать виртуальную машину в другое место и задействовать ее в течение часа, если не нескольких минут. В недалеком прошлом полное восстановление системы “один в один” могло занять дни и даже недели”.
Когда вам надо восстановить или сдублировать сотни или даже тысячи узлов, виртуализация может стать определяющим фактором для восстановления работоспособности бизнеса.
Site Recovery Manager компании VMware был запущен в мае и уже стал популярной новинкой в мире восстановления информации после аварии. Клиенты VMware начали использовать платформу виртуализации BSX для архивирования и копирования виртуальных машин и систем хранения уже несколько месяцев назад, еще до официального выпуска Site Recovery Manager в качестве самостоятельного продукта.
Как считает Смит, виртуализация перевела восстановление данных на следующий уровень: “Клиенты используют этот скачок для того, чтобы получить технологию в свое распоряжение и насладиться новыми выгодами, связанными с портативностью приложений виртуализации и хранения”.
Такие системы, как Sire Recovery Manager, облегчают решение многих проблем, возникающих при появлении аудиторов. Этот продукт предлагает CIO или менеджеру центра обработки данных электронные записи, представляющие собой отчет, который можно на месте за несколько минут показать аудиторам и который содержит сведения о проведении тестирования системы восстановления информации, включая данные о работоспособности всех ее частей, а также информацию о работе системы после устранения всех возникших в результате первого теста неполадок.
По мнению Смита, возможность сказать: “Вот, как у нас всё работает” -- и распечатать подробный отчет, когда аудиторы сидят у вас в комнате, является очень мощным оружием в арсенале компании. “Не хочется даже вспоминать недалекое прошлое, когда приходилось вместе с аудиторами просматривать отчет в 250 стр. -- страницу за страницей. Нет, сегодняшний вариант несравненно лучше”, -- заявил он.
Рынок систем восстановления данных после аварии растет так стремительно, что он начал делиться на некоторые специфические системы восстановления данных для разных вертикальных рынков, таких как высокопроизводительные вычисления, медицина и образование. Сюда примешивается и архивирование в режиме реального времени с использованием вычислений в “облаке”– управляемых сервисов в Интернете.
Такие вычисления помогли Университету Tulane в Новом Орлеане восстановиться и продолжить нормальную работу три года назад после урагана “Катрина”.
В этом университете использовалась система компании Xythox, занимающейся восстановлением данных и специализирующейся как раз на решениях для образовательного сектора. Эта система позволяла отслеживать все используемые файлы и ежедневно архивировать их в “облаке”. Директор по ИТ-поддержке пользователей университета Адам Кроб очень благодарен этой системе за то, что она помогла им пережить ураган.
Правила восстановления после аварии
Одна из крупнейших мировых финансовых организаций Capital One, которая не может пережить выхода из строя своей системы даже на минуту, недавно разработала некоторые правила восстановления после аварии для бизнеса с большим количеством транзакций:
- определите ваши риски – с какими авариями вы чаще всего сталкиваетесь;
- определите ключевые бизнес-функции и то, как быстро они должны быть восстановлены;
- определите, какие части вашего бизнеса могут быть временно остановлены, а какие должны поддерживаться постоянно;
- составьте список бизнес-инструментов, которые вам нужны для поддержки работоспособности бизнеса в момент аварии и в период восстановления после нее;
- сделайте обзор возможностей поддержки связи с персоналом. Электронная почта и мгновенные сообщения должны играть существенную роль в планировании коммуникаций с сотрудниками;
- определите местонахождение сотрудников при работе вне офиса компании и возможность их доступа к резервным системам, записям и т. п.;
- оснастите место для резервной работы всем необходимым: электрогенераторами, компьютерами и ПО, телефонами, радио- и телеприемниками, автомашинами, лодками и запасными частями к ним, цифровыми камерами, товарами повседневного спроса, а также лекарствами и средствами первой помощи, едой и водой.
- проверяйте ваш план восстановления после аварии как минимум ежегодно.
“У нас уже несколько лет эксплуатируется Xythos-сервер, но мы не могли с ним работать после урагана, -- рассказал Кроб. -- Он не скрылся под водой, но был недоступен. Мы связались с Xythos, и они предоставили нам возможность работать в режиме реального времени до тех пор, пока мы не восстановили связь с собственным сервером”.
Главный ИТ-сервер Университета Tulane “оставался в темноте” около трех недель. “Наши системы платежей и работы со студентами были восстановлены достаточно быстро в наших резервных центрах в Sunguard, -- добавил Кроб. -- Но другие системы, такие как Blackboard (обучение в режиме реального времени) и системы хранения файлов Xythos, должны были ждать, пока восстановится связь с нашим вычислительным центром”.
По словам Кроба, возможность, предоставленная компанией Xythos Университету Tulane, существенно помогла студентам нормально учиться после того, как они были распределены по сотням других институтов. “Мы должны были отслеживать их работу в тех местах, где они находились, а также убедиться в том, что они получают достаточную финансовую помощь и вернутся к нам следующей осенью, -- подчеркнул он. -- Мы создали специальные таблицы, которые пересылали сотрудникам, кто отвечает за финансовую помощь во всех тех университетах, куда попали наши студенты. С помощью Xythos мы выделили специальное “место для отзывов” в каждой из этих таблиц, куда данные сотрудники могли помещать всю необходимую информацию. При этом обеспечивалась ее полная сохранность – после помещения в таблицу ее не мог просмотреть никто другой. Только авторизованный персонал в Tulane и других университетах имел доступ к персональной информации студентов”.
И все же даже при наличии такой системы и автоматизации многих процессов главными действующими лицами, обеспечивающими нормальную работу при аварии, остаются сотрудники.
“Важно осознать, что сегодня любая компания все больше и больше зависит от системы восстановления данных, -- сказал представителям eWeek менеджер корпорации IBM по обеспечению непрерывности бизнеса Пэт Коркоран. -- Но главной проблемой остается недооценка подготовки персонала и правильной работы с ним. Компании считают так: “В случае аварии мы будем зависеть от работы этих пяти, шести, семи, пусть даже десяти человек, которые выполняют план восстановления данных”. Они реализуют план, проводят тестирование и т. д., но когда происходит авария, то оказывается, что этих людей нет в наличии. Поэтому очень важно понять, знают ли ваши сотрудники, что делать в момент аварии? Знаете ли вы сами, что делать в момент аварии? Знаете ли вы как связаться с вашими сотрудниками в случае отключения электричества?”
Одним из важнейших элементов любого плана восстановления после аварии является тестирование. Разработанный после 11 сентября план, на который больше никто ни разу не смотрел, скорее всего не сработает.
По мнению Коркорана, компании не должны тестировать свои системы восстановления после аварии слишком часто, поскольку это отнимает время у сотрудников и может помешать их ежедневной работе. Он рекомендует тестировать системы и процессы восстановления после аварии как минимум два раза в год, но проводить это тестирование можно поэтапно: “Я считаю, что системы восстановления данных надо тестировать как минимум дважды в год. Свою я тестирую четыре раза в год, но это мое личное дело. Не следует тестировать каждый раз всю систему -- можно делать это по частям, но тщательно. В следующий раз тестируются другие части и т. д.”.
Многие производители ПО для систем восстановления данных, такие как Ecora, Orange Parachute, Compellent, EMC, IBM, NetApp, Xiotech и Hewlett-Packard, предусматривают возможность тестирования системы восстановления данных без отключения других систем или замедления их работы.