Перебои с электропитанием, проблемы с охлаждением и сторонние поставщики — вот некоторые из самых больших угроз для бесперебойной работы центров обработки данных. Кристофер Тоцци, технологический аналитик Fixate.io, рассказывает на портале Data Center Knowledge, как эффективно снизить эти риски.

Если вы хотите увеличить время бесперебойной работы дата-центра, вам необходимо выявить и устранить наиболее распространенные источники сбоев. Это может быть непросто, поскольку существует множество причин, по которым ЦОД может выйти из строя, и устранить каждую из них, как правило, не представляется возможным. Вместо этого операторы дата-центров должны решить, какие угрозы работоспособности должны быть приоритетными.

Помочь им могут ценные рекомендации, предлагаемые в новом отчете Uptime Institute «Annual Outage Analysis 2024». Здесь подробно описаны наиболее распространенные проблемы обеспечения бесперебойной работы дата-центров по состоянию на 2024 г., а также сделаны неожиданные выводы о том, какие события приводят к сбоям в работе ЦОДов.

Вы можете подумать, что наиболее распространенной причиной простоя ЦОДов являются такие риски, как кибератаки или экстремальные погодные условия, которые, как правило, привлекают большое внимание средств массовой информации, когда они происходят.

Однако в действительности эти риски незначительны с точки зрения времени работы дата-центра. Проблемы, которые лежат в основе большинства отказов ЦОДов, делятся на следующие категории:

1. Отказы физических систем

Самой частой причиной выхода из строя дата-центров являются проблемы с электропитанием. Согласно отчету Uptime Institute, на их долю приходится 52% всех сбоев в работе ЦОДов.

Еще 19% отказов вызваны проблемами с охлаждением ЦОДов, которые Институт классифицирует отдельно от проблем с электропитанием.

Это означает, что самым большим риском для бесперебойной работы дата-центров, безусловно, является отказ физических систем. Операторам ЦОДов, которые хотят повысить время бесперебойной работы, следует инвестировать в такие решения, как резервные источники энергии или системы отопления, вентиляции и кондиционирования воздуха (HVAC).

2. Проблемы сторонних провайдеров

Следующей наиболее распространенной угрозой безотказной работе дата-центров является то, что Uptime Institute относит к проблемам со сторонними поставщиками. Это означает сбои, вызванные сервис-провайдерами, с которыми компания заключает договор на управление дата-центрами в рамках соглашения об аутсорсинге или аналогичного соглашения.

Трудно сказать, снизит ли эту проблему самостоятельное управление дата-центрами. Казалось бы, аутсорсинговые компании, специализирующиеся на ежедневной эксплуатации ЦОДов, скорее всего, добьются лучших показателей безотказной работы, чем компании, для которых это не является ключевым направлением. Но в этом вопросе все зависит от того, насколько хорошо ваши сотрудники умеют (или не умеют) управлять дата-центрами.

В любом случае, стоит помнить о том, что если вы выбираете стороннего провайдера для управления работой дата-центра, вам следует поинтересоваться его показателями обеспечения безотказной работы, чтобы он не стал самым слабым звеном в вашей стратегии обеспечения доступности ЦОДа.

3. Отказы ИТ-систем

Отказ аппаратного и программного обеспечения ИТ-систем является третьим по распространенности источником простоя дата-центров — и это неудивительно, ведь компании борются с поломками серверов с самого начала цифровой эры.

Волшебной палочки для снижения этого риска не существует, но есть проверенные стратегии — например, инвестирование в лучшие решения для мониторинга и наблюдаемости, а также резервирование ИТ-сред с автоматическим управлением отказоустойчивостью, чтобы в случае сбоя сервера его рабочие нагрузки можно было мгновенно переместить на другой сервер.

4. Сетевые сбои

Сбои в работе сети аналогичны сбоям в работе ИТ-систем: они почти с одинаковой частотой приводят к простоям дата-центров, и это тот тип проблем, с которыми предприятия борются уже давно.

Как и в случае с увеличением времени безотказной работы ИТ-систем, стратегии повышения надежности сетей дата-центров включают в себя улучшение сетевого мониторинга и создание избыточности в сети, чтобы пакеты могли идти по альтернативным маршрутам, если часть вашей сети выйдет из строя.

Более широкое использование программно-определяемых сетей также может повысить надежность сети за счет упрощения выявления и устранения сбоев с помощью программных средств управления, а не физического сетевого оборудования.

Другие проблемы обеспечения бесперебойной работы дата-центров

Пожары и инциденты информационной безопасности также фигурируют в рейтинге Uptime Institute среди причин сбоев в работе дата-центров, но они лишь едва заметны на фоне остальных. На их долю приходится 3 и 1% всех сбоев, соответственно.

Конечно, это не значит, что вам не стоит вкладывать средства в защиту от пожаров и обеспечение кибербезопасности. Но если вы пытаетесь решить, какие виды рисков для бесперебойной работы дата-центра следует сделать приоритетными, данные показывают, что они не должны быть единственными в вашем списке.