Стихийные бедствия, кибератаки или вызванные изношенностью оборудования аварийные отключения — все это может стать причиной краткосрочных или длительных простоев в работе, нанести серьезный урон имиджу бренда или, что еще хуже, привести к потере данных, пишет портал eWeek.
Потеря важной информации о бизнес-операциях и клиентах может нанести ущерб гигантским корпорациям, не говоря уже о СМБ, которому часто недостает технических специалистов и средств для защиты от рисков. Критические сбои вообще могут привести к банкротству малых предприятий. В США, по данным федерального агентства по чрезвычайным ситуациям (FEMA), именно это происходит с
Адир Коэн, генеральный директор компании CaaB, которая предоставляет облачные решения для провайдеров управляемых сервисов (MSP), VAR-реселлеров и хостинговых компаний, приводит пошаговое руководство, которое позволит СМБ должным образом подготовить процедуру аварийного восстановления:
1. Заключите партнерство с компанией, которая предлагает эффективные и надежные услуги по модели DRaaS
Аварийное восстановление как услуга (disaster recovery as a service, DRaaS) — это предлагаемая третьей стороной услуга, которая обеспечивает непрерывную репликацию или хранение важнейших приложений, инфраструктуры, данных и систем (как физических, так и виртуальных серверов) для быстрого восстановления работы после сбоев ИТ от стихийных бедствий или в результате человеческого вмешательства. По сравнению с клиентом, поставщик внешних услуг в гораздо меньшей степени чувствителен к последствиям аварии, он обеспечивает перевод процедуры восстановления в облако и реализует план клиента по восстановлению данных даже в случае, даже когда инфраструктура клиента полностью выведена из строя.
Одно из преимуществ DRaaS состоит в том, что данные не требуется восстанавливать через Интернет, поэтому работоспособность приложениям можно вернуть в кратчайшие сроки. К другому преимуществу можно отнести то, что отпадает необходимость выделять дополнительный бюджет для обустройства собственного удаленного хранилища резервных копий — этим вопросом занимается DRaaS-провайдер. Все это хорошо перекликается с потребностями СМБ, которому часто недостает средств или специалистов, чтобы разработать и осуществить необходимые восстановительные процедуры.
2. Определите параметры DRaaS
Универсальных решений не существует, поэтому стратегия восстановления будет напрямую зависеть от потребностей конкретной компании. Для настройки восстановления существует два ключевых показателя:
- допустимое время восстановления (recovery time objective, RTO): этот показатель определяет допустимое время простоя программы без ощутимого ущерба для бизнеса. Например, более низкий RTO имеет решающее значение для компаний, которые зависят от сезонных изменений в розничной торговле. Однако RTO — это не просто промежуток времени между потерей и восстановлением данных. За этот промежуток ИТ-специалистам нужно предпринять меры, чтобы восстановить работоспособность информационной системы на резервном оборудовании или площадке;
- допустимая точка восстановления (recovery point objective, RPO): этот показатель определяет максимальный период времени, за который могут быть потеряны данные в результате инцидента. Например, показатель RPO установлен на один час. Это значит, что, если вдруг происходит авария, предприятие готово к тому, что систему удастся восстановить, но в ней будут потеряны данные не более, чем за последний час. RPO определяет периодичность создания резервных копий системы. Для приложений, ориентированных на клиента, критически важно минимизировать RPO.
Определив значения RTO и RPO, предприятие может выбрать один из следующих вариантов восстановления данных:
- режим «active-active». Этот вариант также известен как синхронная репликация и подразумевает выделение отдельного внутреннего узла для синхронного зеркалирования приложений и данных в режиме реального времени. Другими словами, он обеспечивает максимально возможный RTO путем сопряжения производственного и резервного кластеров, поэтому в случае сбоя последний находится в полной готовности, чтобы минимизировать время простоя и потерю данных. Его плюс: отработка отказа выполняется в автоматическом режиме. Недостаток: более высокая стоимость, повышенная сложность;
- режим «active-passive». Этот вариант хранения еще известен как асинхронная репликация, он подразумевает, что копии данных компании хранятся в другом месте или в ЦОДе DRaaS-провайдера. Режим «active-passive» позволяет осуществлять полное резервирование (сохранять работоспособную копию) каждого узла с данными. Резерв включается в работу только тогда, когда отказывает соответствующий основной узел. Его плюс: максимально допустимые значения RTO/RPO и более дешевое решение. Недостаток: высокая стоимость оборудования, возможные потери данных.
Эти режимы хранения можно реализовать двумя способами:
- комбинированное локальное/облачное хранение резервных копий. Многие компании, которые осуществляют переход в облако, переносят свои инфраструктуры из локальных ЦОДов, однако чтобы максимизировать отдачу от многолетних капиталовложений, перепрофилируют дата-центры под хранилища бэкапов. Этот вариант хранения более выгодный с финансовой точки зрения, чем облачное резервное копирование;
- облачное хранение резервных копий. Этот способ хранения экономит время, средства и прост в реализации. С его помощью можно осуществлять отправку копий данных через Интернет на удаленный защищенный сервер внешнего провайдера для немедленного восстановления в случае необходимости. Облачное хранение резервных копий предполагает высокие (но не максимально допустимые) значения RTP/RPO, снижение инвестиций на поддержку унаследованных систем и уменьшение нагрузки на ИТ-персонал. Тем не менее, процесс восстановления копий из облака требует времени и проводится вручную.
3. Проведите тестирование сценариев аварийного восстановления
Аварийное восстановление выходит за рамки восстановления данных и поддержания работоспособности приложений. Вне зависимости от того, является ли компания небольшой, средней или большой, очень важно удостовериться, что приложения можно вернуть к работоспособности в установленные RTO и RPO сроки и убедиться в готовности персонала к внештатным ситуациям. Проведя тестирование аварийного восстановления, предприятие сможет получить представление о том, действует ли оно в рамках установленных практик и регуляторных норм или же какая-то часть бизнес-процессов «вышла из строя».
Тестирование позволит перепроверить действенность аварийного плана восстановления. Чтобы авария не застала врасплох, следует установить тесный контакт с DRaaS-провайдером с целью регулярного тестирования и проверки контрольных точек. Отдельно нужно отметить, что компании следует иметь обученную команду по аварийному восстановлению, которая всегда готова гибко и тщательно отреагировать на внештатные ситуации. Интеллектуальная технология резервного копирования, надежные партнеры DRaaS, умная стратегия аварийного восстановления — это рецепт, который защитит бизнес в любой ситуации.