“Как защититься от того, что мы предвидеть не можем?”. Пожалуй, именно в этом вопросе, поставленном директором ИТ-департамента компании “СИБУР — Русские шины” Мариной Аншиной в ее выступлении на конференции “BCM: Теория и практика управления непрерывностью бизнеса”, заключена самая сложная проблема дисциплины Business Continuity Management (BCM). Деловая активность предприятия может прерваться по самым разным причинам: из-за аварии систем жизнеобеспечения, проблем с оборотом финансов, катастроф во внешнем по отношению к нему окружении, действий злоумышленников и, наконец, сбоев в работе информационных систем. Мало того, что прогнозировать все возможные сценарии по каждому из указанных направлений практически невозможно, еще труднее предвидеть как на первый взгляд некритичные сбои на каждом из этих направлений в сочетании могут привести к нарушению непрерывности бизнеса. Вот почему при всем уважении к теории особый интерес у участников вызывали именно практические рекомендации и рассказы о том, как реализовать на практике методологии BCM.
Собственно, и международные стандарты BS 25999 (управление непрерывностью бизнеса в целом) и BS 25777 (непрерывность функционирования подсистем ИКТ) в значительной степени обобщают накопленный в мире опыт в области BCM и написаны, по меткому выражению заместителя генерального директора компании КРОК Руслана Заединова, кровью. В них отражены все процедуры жизненного цикла BCM, начиная с описания рисков и формирования планов по их преодолению и заканчивая тестированием и проведением полномасштабных учений с участием персонала. Новость о том, что начал действовать аналогичный российский стандарт ГОСТ Р 53647.1-2009 — “Менеджмент непрерывности бизнеса”, сообщил участникам форума консультант по непрерывности бизнеса компании “Инфосистемы Джет” Константин Мусатов. Впрочем, не обошлось в этом радостном сообщении и без ложки дегтя: хотя сей документ имеет статус действующего, текст его на сайте Федерального агентства по техническому регулированию и метрологии отсутствует.
Это, разумеется, не означает, что реальная работа в данном направлении без ГОСТА или иных нормативных документов вестись не может. Главное, чтобы руководители и собственники предприятия хорошо осознавали, зачем вообще бизнесу нужна непрерывность. Поставив этот вопрос, Марина Аншина привела в качестве ответа весьма красноречивый график, показывающий, как одна компания после серьезного инцидента сумела выйти на прибыльность, а другая так и осталась в минусе. Переводя сказанное на житейский язык, с тем же успехом можно было бы обсудить вопрос: зачем человеку нужна непрерывность его жизни? В такой постановке ответ на него очевиден каждому: не будет непрерывности — не будет и самой жизни. Далеко не все организации задумываются об этом всерьез, но в некоторых отраслях, таких как банковская, наличие плана по обеспечению непрерывности — это нормативное требование ЦБ РФ, закрепленное в Положении № 242-П. Другие предприятия, к примеру “СИБУР — Русские шины”, занимаются указанными вопросами в силу “внутреннего убеждения” относительно их важности.
Хотя на данной конференции, проведенной под эгидой AHConferences, в центре внимания были проблемы, с которыми сталкиваются ИТ-департаменты, ее участники согласились, что при обсуждении бюджета программы BCM айтишникам не следует тянуть одеяло на себя. Непрерывность бизнеса зависит в разной степени от работы всех подразделений компании, и ее нарушение, как правило, обусловлено самым слабым звеном. Как совершенно справедливо отметил директор ИТ-департамента Центрального Банка РФ Михаил Сенаторов, основная цель BCM — обеспечение устойчивости работы предприятия в целом, а не только его ИТ-инфраструктуры. Тем не менее иногда именно ИТ-решение становится критически важным участком. В Центробанке — это платежная система ЦБ РФ, посредством которой проводятся межбанковские безналичные расчеты, осуществляется расчетное обслуживание счетов бюджетной системы и т. д.
Посетовав на то, что спешка вендоров при выводе на рынок новых моделей оборудования и версий ПО служит причиной многочисленных сбоев ИС, Михаил Сенаторов указал на единственный инструмент повышения общей отказоустойчивости — многократное резервирование и избыточность ИКТ-ресурсов. В частности, ИКТ-инфраструктура платежной системы ЦБ РФ имеет восьмикратное резервирование всех компонентов. На самом верхнем уровне оно обеспечивается двумя Коллективными центрами обработки информации (КЦОИ), расположенными в Санкт-Петербурге и Нижнем Новгороде, которые способны обеспечить восстановление работоспособности системы после крупномасштабных катастроф. Наряду с выполнением в каждом КЦОИ операций платежной системы между ними раз в сутки осуществляется полная взаимная репликация данных. Кроме того, оба КЦОИ в Санкт-Петербурге и Нижнем Новгороде помимо основной площадки имеют в своем составе удаленный на десятки километров резервный дата-центр, полностью идентичный по набору оборудования и ПО с основным. Штат резервного дата-центра составляет примерно 10% от численности сотрудников основного: предполагается, что при переключении нагрузки на резервный центр нужные специалисты будут перемещены туда с основной площадки. Ну и наконец, на самом нижнем уровне резервирование обеспечивается дублированием всего оборудования.
По мнению Михаила Сенаторова, о надежности и отказоустойчивости этого решения свидетельствует тот факт, что за 2009 г. не было ни одной нештатной ситуации, которая имела бы реальные последствия для работы платежной системы. Не является ли столь высокая степень резервирования избыточной? Видимо, предполагая, что такой вопрос может возникнуть, докладчик пояснил, что в обосновании используемой здесь ИТ-архитектуры принимали участие научные учреждения РАН. Наряду с решением чисто технологических вопросов не следует забывать о том, что в критических ситуациях основная работа выполняется людьми. А это означает, что в организации должен быть утвержденный план по обеспечению непрерывности бизнеса, который содержит четкие инструкции для персонала. На основе своего исторического опыта в ЦБ РФ пришли к тому, что в случае сбоя нагрузка сразу же передается на резервный дата-центр, и только после этого специалистам разрешается заниматься устранением неполадок на основной площадке.
Относительно всевозможных планов по преодолению нештатных ситуаций мнения участников форума заметно расходились. С одной стороны, в них должны быть предусмотрены действия для всех возможных сценариев, с другой — при этом подобные планы станут столь обширными и необозримыми, что их никто внимательно читать не будет. По мнению Марины Аншиной, следствием этого могут стать всевозможные креативные действия сотрудников, которые, скорее всего, приведут к негативным результатам. Отсюда делается вывод: иногда лучше не иметь никакого плана, чем руководствоваться плохим. Но насколько хорошим он может быть, если, как утверждает эксперт по непрерывности бизнеса и защите информации компании “АйТи” Сергей Петренко, сегодня совершенно отсутствует анализ всего набора сценариев прерывания бизнеса, их структуры и иерархических взаимосвязей? Возможно, есть смысл пойти по пути упрощения планов, оставив в них лишь наиболее важные пункты, которые заведомо будут выучены персоналом и знание которых можно проконтролировать, в том числе и в ходе учебных тренингов и тестов.
Говоря о важности подобных мероприятий, Руслан Заединов отметил, что в КРОКе тренинги персонала в условиях отключения электропитания проводятся ежемесячно. Польза от таких занятий, несомненно, есть, хотя, согласимся, со временем они все больше будут напоминать запланированный известным киногероем на 9 часов утра ежедневный подвиг. В российском филиале крупнейшего индийского частного банка ICICI Bank, как рассказала его менеджер по операционным рискам Айгюль Иксанова, наряду с плановыми учениями практикуются и внезапные тревоги, о которых заранее осведомлен лишь узкий круг высших руководителей кредитного учреждения. Но даже в этих случаях никому не удастся имитировать обстановку реального пожара, затопления или землетрясения с тем, чтобы, с одной стороны, проверить психологическую устойчивость персонала, а с другой — выявить все реальные факторы, способные нарушить работоспособность предприятия. Иногда подобные факторы могут действовать не по отдельности, а в определенных сочетаниях, которые не всегда удается спрогнозировать заранее. Возможно, определенную помощь здесь могли бы оказать средства математического моделирования, но, как посетовал Сергей Петренко, таких инструментов пока еще крайне мало.
Рутинное многократное резервирование всех систем — путь весьма эффективный, но в то же время и чрезвычайно затратный. Все понимают, что в процессе согласования бюджета BCM сам его масштаб может иногда испугать руководство сильнее, чем гипотетические сценарии тех или иных катастроф. По мнению Руслана Заединова, начинать следует с ранжирования всех бизнес-процессов по степени их критичности для деятельности предприятия. После чего надо направить основные усилия на поддержку наиболее важных с этой точки зрения процессов. Самой сложной задачей для ИТ-департамента при этом будет нахождение соответствий между этапами бизнес-процесса и задействованными в них ИТ-сервисами. Очевидно, что такой подход поможет оптимизировать расходы на BCM. Имеет ли смысл поддерживать в критических ситуациях лишь некие упрощенные версии бизнес-процессов? К сожалению, этот весьма разумный вопрос из зала остался без ответа.
Тем не менее в реальной жизни указанный подход применяется далеко не всегда. Пример тому — проект в розничной сети “Лента”, о котором рассказал заместитель ИТ-директора “Ленты” по сервисам Борис Шойхет. Еще недавно ИС этой организации была централизованной, а все серверные помещения размещались в одном здании. Поскольку такая архитектура была крайне уязвима, было принято решение о создании территориально удаленной резервной площадки, призванной поддерживать не главные бизнес-процессы, а задействованные в них корпоративные системы. Таковыми были признаны приложение, обеспечивающее процедуры продаж, электронная почта и система управления персоналом. По словам Бориса Шойхета, в “Ленте” корпоративного плана по поддержанию непрерывности бизнеса нет, а потому задачи для данного проекта ИТ-департамент ставил себе сам. Одним из важных было требование уложиться в весьма ограниченный бюджет. Проект обошелся розничной сети в 14 млн. руб, причем большая часть этой суммы пошла на закупку оборудования IBM (мощность резервного центра составляет 10% от мощности основного).
Было принято решение не строить собственный ЦОД, а арендовать необходимые ресурсы у внешнего провайдера (им стал телекоммуникационный оператор “Вымпелком”). В договоре с провайдером не предусмотрена его финансовая ответственность за реальные последствия сбоев, выходящих за рамки соглашений SLA, поскольку оценить их однозначно в денежной форме будет трудно. Все сводится лишь к стандартным штрафным санкциям за то или иное время простоя. Борис Шойхет упомянул еще один возможный способ оптимизации затрат: заключение договора с вендором о предоставлении оборудования в краткосрочную аренду на время ликвидации аварии. К сожалению, пока что переговоры “Ленты” с вендорами по данной теме успеха не принесли.
Облачные технологии упоминались чуть ли не в каждом докладе, но по большей части лишь как некое светлое будущее. Михаил Сенаторов, к примеру, убежден, что в силу распределенности, присущей облакам, такие технологии будут способствовать повышению надежности ИС. Череда аварий и сбоев, прокатившаяся уже после данной конференции, заставляет усомниться в “безоблачных” перспективах облачных сервисов, предоставляемых, по сути, как коммунальная услуга. Выяснилось, что даже такой, казалось бы, распределенный VoIP-сервис, как Skype, может испытывать сбои планетарного масштаба, затрагивающие множество предприятий. Думается, разработка практик BCM, в полной мере учитывающих все преимущества и риски облачных услуг, еще только предстоит.