Итак, сезон ураганов, тропических штормов и других природных катаклизмов наступил. ИТ-менеджер! Вы должны научиться разрабатывать план восстановления бизнеса после катастроф с адекватными стратегиями хранения данных и резервирования. Причём на эту работу надо смотреть не только с точки зрения непрерывности бизнеса и работоспособности приложений, но и в смысле соблюдения законодательных требований.
Самое страшное, что может ждать ИТ-менеджера, — это звонок от исполнительного директора с требованием эвакуировать центр обработки данных из-за урагана или другой стихии. Именно это случилось с Джоном Шаффе, ИТ-директором компании Tidewater Marine из Нью-Орлеана, за день до прихода урагана “Катрина”, когда ему было предложено все серверы перевезти в арендованный офис в Хьюстоне.
Шаффе и другие руководители ИТ-департамента уже восприняли полезные уроки о том, как планировать непрерывность бизнеса с адекватными стратегиями хранения и резервного копирования информации.
“Три года назад ураганы “Фрэнсис” и “Вильма” разрушили три из одиннадцати наших кампусов, — рассказывает Дэн Вайс, ИТ-директор MedVance Institute из West Palm Beach, сети школ для профессиональной медицинской подготовки. -- Руководитель ИТ-подразделения в те годы должен был организовать работу ЦОДа вне основных зданий на срок около недели”. С тех пор Вайс построил подробный план восстановления работоспособности после аварии (DR — disaster recovery), включающий создание параллельного центра обработки данных в Атланте, до которого не могут дотянуться ураганы.
Естественно, работа ИТ может быть прервана и по причинам, отличным от природных катастроф. Поэтому очень важно быть готовым к любым типам разрушений.
“Наши офисы расположены на Манхэттене, и в здани мы соседствуем с компанией Microsoft, — рассказывает директор по ИТ Wall Street Systems Марк Тиршвелл. -- А они могут попросту отключить электроэнергию на целый день, если им потребуется больше мощности для их серверов”.
Тиршвелл предлагает проводить тщательный анализ рисков и получать информацию от всех заинтересованных лиц, таких как эксплуатационный персонал, руководители департаментов и менеджеры по разработке приложений. “Надо определить, какие системы являются критически важными для бизнеса и какие события могут привести к существенным изменениям в его функционировании”, — советует он.
Не менее важно хорошо знать взаимозависимость систем и их приоритеты при восстановлении.
“Системы надо восстанавливать в определенном порядке, предусматривая их связи с Интернетом и локальными сетями, — подчеркивает Майк Кроу, директор по решениям, обеспечивающим непрерывность бизнеса, из консалтинговой компании Forsythe Solutions Group из Skokie. -- Вы должны знать, какое воздействие на бизнес окажет разрыв связи или потеря важной информации клиентов”.
Если у вас есть такая информация, составьте детальный каталог всех ваших серверов и услуг и предусмотрите необходимое время восстановления для каждого из них. Некоторые должны быть запущены через несколько минут, а какие-то можно оставить на несколько часов, а то и дней.
“Мы не восстанавливаем все наши серверы, -- рассказывает Ли Абнер, директор по технологиям CIB Marine Information Service, дочки бинковской холдинговой компании CIB Marine Bancshares. -- В течение первых 48 часов нам требуется примерно 30% критически важных наших серверов, обслуживающих электронную почту, документооборот и чековую систему наряду с поддержкой Active Directory и защитой от вирусов”. По его словам, остальные серверы вполне могут подождать.
Приоритеты восстановления после аварии в инвестиционной банковской компании Munder Capital зависят от природы системы. “Мы проводим оценку ситуации каждые 15 минут или час в зависимости от системы”, — рассказывает менеджер по сетевым операциям и безопасности Вольфганг Герлих. -- Наши основные системы, (например, биржевых торгов) могут иметь проблемы при остановке работы всего на 15 минут. Системы более низкого уровня генерируют отчеты раз в день, поэтому их можно остановить на несколько часов без особого ущерба для результата. Для наименее важных систем в нашем плане DR стоит, скажем, такое: купить коробки и принести их через несколько недель”.
Восстановление после аварии: перемещение данных в безопасное место
Если у вас один ЦОД, продумайте, куда вы будете перемещать данные в случае опасности. Решения могут быть самыми разными, начиная от покупки противопожарного сейфа, чтобы каждую ночь прятать туда ленты со скопированными файлами и заканчивая арендой удаленного офиса с серверами, на которые в онлайновом режиме будет копироваться вся необходимая информация.
Процесс переноса информации можно разбить на несколько шагов: создание лент с резервными копиями и их физическое перемещение в удаленное место, а затем копирование данных в другое место хранения через Интернет.
“Мы думали о том, чтобы создать собственный архив в офисе, но стоимость этого варианта примерно равна плате провайдеру услуг копирования, а кроме того, нам пришлось бы платить за аренду помещения и т. п., — говорит Абнер, поясняя, почему CIB Information Services перешла на SunGuard. -- Полагая, что SunGuard представляет собой лучший вариант для нас, я предупреждал каждого, что надо проверить, чтобы индивидуальные контракты предусматривали все типы ситуаций”.
Для юридической компании Miles and Stockbridge создание нескольких центров хранения данных в разных местах было бы слишком дорого, поэтому выбрали решение с максимально возможным числом хостингов, рассказал CIO этой фирмы Кен Адамс. Раньше здесь использовали систему Postini для устранения спама в электронной почте и антивирусной защиты, а теперь переключились на хостинговое решение разработки Mimecast. “Вся моя электронная почта проходит через их сервис, — говорит Адамс. -- Они проводят всё необходимое архивирование, и я совершенно не забочусь о резервных копиях”.
Компания также перешла с PCDpcs на NetDocuments, хостинговый сервис управления документами. “Юридические фирмы живут и умирают со своими документами, но я не должен ни индексировать их, ни заботиться о копиях, всё это делает у себя NetDocuments”, — пояснил Адамс.
Восстановление после аварии: преимущества виртуализации
Виртуализация несет с собой определенные преимущества для виртуальных решений – как систем хранения, так и серверов: и то и другое полезно для перезапуска критически важных сервисов и дублирования информации в разных центрах обработки данных и офисах. Такие продукты, как Microsoft Hyper-V и VMware, могут стать менее дорогой альтернативой для быстрого восстановления.
“Ключевым моментом для нас является необходимость очень быстрого восстановления”, -- говорит Герлих из компании Munder Capital. Здесь используются виртуальные массивы хранения фирмы Compellent со встроенной системой DR. По словам Герлиха, ему достаточно одного щелчка мышкой, чтобы запустить программу DR и задействовать систему на новом сервере.
А в CIB Marine виртуализовано 80% систем. В результате компания смогла наполовину снизить плату за хостинг и сэкономить время путем благодаря консолидации серверов в резервном ЦОДе. “До виртуализации восстановление занимало 48 часов и над ним работало 12 сотрудников, — вспоминает Абнер. -- Сегодня четыре человека справляются с этим за 24 часа, причём большую часть данного времени мы просто следим за тем, чтобы система работала нормально”.
Виртуализация стала решением проблем и для Wall Street Systems. “Все наши критически важные серверы используют виртуализацию, поэтому мы очень быстро восстанавливаемся, — говорит Тиршвелл. -- Мы можем использовать виртуализацию для того, чтобы скопировать физический компьютер, что помогает нам сбалансировать нагрузку на серверы. Это экономит много времени в нашей работе”.
Компания использует систему виртуализации Egenera для стоечных серверов, которая позволяет быстро заменить блейд-сервер или другой отказавший компонент без отключения приложения. “Десять лет назад нам потребовалось бы человек пятьдесят, и то они не справились бы с тем, что мы делаем сейчас, — рассказал Тиршвелл. -- Кроме того, мы можем наращивать виртуальную инфраструктуру и управлять ею с тем же количеством сотрудников”.
Вне зависимости от того, какое решение выбрала компания, оно должно предусматривать DR-восстановление и доступ сотрудников к центру обработки данных либо доступ в Интернет для удаленного управления компьютерами в случае аварии.
“Один из уроков, который мы вынесли из урагана “Фрэнсис”, заключается в том, что потеря централизованных коммуникаций влияет на возможность работы, — сообщил Вайс из MedVance. –Виртуализованное рабочее пространство означает, что мои сотрудники могут продолжать свою работу, если они имеют доступ в Интернет и могут зайти на портал Citrix”.
В MedVance были предприняты и другие шаги, в частности, там пришли к выводу, что сотовая связь восстанавливается быстрее, чем другие коммуникации, поэтому все сотрудники компании были снабжены мобильными телефонами.
И наконец, нужно иметь в виду, что ни одно решение не является универсальным. “Обычно я вижу надвигающийся шторм и могу к нему подготовиться, -- говорит Шаффе из Tidewater Marine. -- Поэтому асинхронное резервирование вполне приемлемо для меня, но оно может не работать для других”.
С ним согласен и Крой из Forsythe Solutions: “Каждый строит свою инфраструктуру по-своему, и компании должны понять, что все они уникальны и поэтому к системе защиты своего конкретного бизнеса нужно подходить индивидуально”.