Землетрясение силой в 8,9 баллов у северо-восточного побережья Японии с последовавшим цунами, происшедшие 11 марта, уничтожили либо сильно повредили на своем пути города острова Хонсю, обрушив строения, хозяйственные объекты и линии коммуникаций, последствия чего ощущаются на большей части Тихоокеанского побережья страны.
Хотя еще точно не известно сколько средств ИТ и центров обработки данных унесла волнами катастрофа, сам факт подобного бедствия — ясное напоминание ИТ-менеджерам о важности систем поддержания непрерывности бизнеса и необходимости контроля готовности последних к подобным событиям.
Известное свойство человеческой натуры — расслабиться, если время идет, а ничего реально опасного (для информационной системы) не случается. Событие, подобное “11 марта” несомненно должно стать поводом “встряхнуть” того, кто наверное не особо регулярно проверял свои системы, либо припугнуть тех, у кого под рукой совсем нет вспомогательных средств.
“Прежде всего, никто никогда не должен забывать об опасностях, — сказал eWeek Билл Хьюджес, эксперт по непрерывности бизнеса из SunGard Availability Services. — Кроме того, при проверке отказоустойчивости центра обработки данных и системы восстановления данных нужно контролировать готовность персонала во всех территориальных подразделениях и каналах поставок".
… Кто сказал, что все всегда “обойдется”?
Хьюджес отметил, что Sungard ведет большую часть бизнеса в Калифорнии — там, где землетрясения происходят чаще, чем где-либо в Соединенных штатах. Вообще говоря, Западное Побережье — это зона наибольшего в США сейсмического риска.
“Тамошние ИТ-менеджеры научились жить под этим домокловым мечом, считая, что если выдержали одно-другое землетрясение, то дело это невеликое, и переживут ещё, если понадобится, — продолжил он. — Конечно, всё это сильно отличается от моих родных мест на Среднем Западе, но у них есть тенденция терять бдительность, а это уж никак нельзя допускать”.
Разумеется, ИТ-менеджеры понимают важность защиты своих центров обработки данных и линий энергоснабжения, но не всегда могут осознать как скажутся последствия региональных катастроф на их сотрудниках в домашней обстановке, как они отразятся на транспорте и многое другое.
“Вам надо поразмыслить, как катастрофа (или что-то подобное) может сказаться на ваших территориальных подразделениях, как она повлияет на ваших людей и на партнеров по снабжению. Люди склонны считать, что катастрофа как приходит, так и уходит. Но надо же и о последствиях подумать”, — добавил Хьюджес.
Землетрясение 11 марта началось с толчка в 8,9 балла по шкале Рихтера, а за ним последовало более 20 толчков выше 6,0 баллов. Каждый из них сам по себе был серьезным землетрясением способным вывести из строя центр обработки данных.
Важность регулярного контроля систем послеаварийного восстановления
Регламентный контроль послеаварийного восстановления и систем поддержания непрерывности бизнеса — головная боль для каждого. Это может отнять массу времени, а часто еще и выглядит бесполезной тренировкой людей и “прогонкой” оборудования. Более того, очень трудно провести тест с разумной степенью достоверности при полностью загруженной работой ИТ-системе, без прерывания деловых операций или остановки целых проектов.
“Тем не менее, важность проверки систем послеаварийного восстановления переоценить невозможно”, — продолжал Хьюджес.
“Вы же не выводите футболиста на поле, пока он не выучит правила игры и не попрактикуется. И так же не можете ожидать от систем послеаварийного восстановления полноценной работы, особенно при таких обстоятельствах, пока их не проверите”. “Один из способов справиться с тестированием таких систем — не превращать это в "мероприятие"”, — заключил он.
“Старайтесь действовать сообразно обстоятельствам, — говорит Хьюджес. — Например, по возможности, всегда испытывайте новую систему при вводе в эксплуатацию — по крайней мере проверьте процедуры восстановления, сценарии восстановления и средства резервирования. Это конечно не полное тестирование всех систем, но выполнение и превращение этих процедур в составляющую часть рабочего процесса — важный способ сохранения контроля над ними. Разумеется, все это не равноценно полной проверке, но так вы сможете вести документацию на уровне текущих событий, поддерживать “боеготовность” персонала и не давать забыть о проблеме”.
Резюмируя сказанное о тестировании Хьюджес заявил: “Вам нужно спросить себя: можем ли мы этого не делать?”