В отчете Uptime Institute «Annual Outage Analysis 2024» о сбоях в работе центров обработки данных рассказывается о том, что, по-видимому, является причиной большинства сбоев и как компании могут снизить риски, пишет на портале ITPro Today Кристофер Тоцци, технический аналитик Fixate.io.

По данным исследования Uptime Institute, число простоев в работе дата-центров сокращается, и основной причиной этого являются инвестиции в системы резервного копирования. Ниже мы более подробно ознакомимся с тенденциями простоев дата-центров, а также проанализируем, что они означают для устойчивости дата-центров и планирования восстановления.

Основные тенденции

В отчете Uptime Institute представлены следующие основные выводы:

  • Общее количество сбоев на одном объекте (сайте) сократилось по сравнению с предыдущими отчетами Uptime Institute. (В абсолютных цифрах количество сбоев увеличилось, но это связано с тем, что дата-центров стало больше.)
  • 55% организаций сообщили, что за последние три года они сталкивались с перебоями в работе дата-центров.
  • Однако только 27% организаций, столкнувшихся с перебоями в работе, назвали их «значительными», «серьезными» или «тяжелыми».
  • Это означает, что в целом менее 15% предприятий за последние три года столкнулись с заметными перебоями в работе.
  • Отказы систем электропитания и охлаждения были наиболее распространенными причинами сбоев в работе дата-центров, на их долю пришлось около 71% всех сбоев.
  • Человеческие ошибки привели примерно к половине значительных сбоев, причем несоблюдение персоналом процедур возглавляет список типов человеческих ошибок, связанных с этой тенденцией.
  • Кибератаки оказались незначительной причиной сбоев в работе дата-центров, составив всего 1% от всех подобных событий. (Важно отметить, что в исследовании рассматривались причины сбоев в работе дата-центров в целом, а не сбои в работе отдельных рабочих нагрузок. В последнем случае кибератаки, вероятно, были бы учтены гораздо чаще.)

Источник: Uptime Institute «Annual Outage Analysis 2024»

Почему количество сбоев сокращается

Согласно исследованию Uptime Institute, основная причина, по которой частота простоев в работе дата-центров снижается, заключается в том, что компании инвестировали средства в системы резервирования для своих объектов. Более трети респондентов сообщили об увеличении резервирования систем электропитания и охлаждения.

Uptime Institute приводит эти данные, чтобы показать, что создание избыточности в каждом дата-центре — в отличие от создания нескольких дата-центров и распределения рабочей нагрузки между ними — является лучшим способом повышения общего времени безотказной работы. В отчете говорится, что эта тенденция противоречит «ожиданиям того, что мультисайтовые подходы подорвут дорогостоящие стратегии физического резервирования отдельных сайтов».

Тем не менее, специалист по статистике может усомниться в том, что корреляция между более высокими показателями избыточности системы и более низкой частотой простоев свидетельствует о причинно-следственной связи. На самом деле не совсем ясно, что это так, и в исследовании Uptime Institute на этот счет ничего не говорится.

В нем также не говорится о том, как изменились инвестиции в мультисайтовые стратегии за последние годы. Вполне вероятно, что среднее количество сайтов также увеличилось, что могло способствовать снижению частоты простоев.

Тем не менее, неоспоримым фактом является то, что все больше компаний инвестируют в резервирование, и существует, по крайней мере, корреляционная связь между этой тенденцией и сокращением числа простоев дата-центров.

Стратегии сокращения числа простоев

В целом, согласно отчету, выигрышными сегодня являются следующие стратегии повышения доступности дата-центров и снижения риска сбоев:

  • Инвестируйте в резервные системы электропитания и охлаждения (с учетом оговорок, обсуждавшихся в предыдущем разделе).
  • Внедрите передовые решения для обеспечения отказоустойчивости, такие как ПО, которое автоматически перемещает сетевой трафик и рабочие нагрузки во время сбоя. Uptime Institute утверждает, что такой подход «может постепенно снизить риски простоев и связанных с ними последствий», хотя и отмечает, что количество простоев может временно увеличиться, поскольку компаниям может потребоваться время, чтобы разобраться в тонкостях нового ПО.
  • Не зацикливайтесь на кибербезопасности как на ключевой стратегии предотвращения сбоев в работе дата-центров. Защита отдельных рабочих нагрузок, безусловно, важна, но данные исследования показывают, что кибератаки очень редко приводят к отказу целых дата-центров.
  • Инвестируйте в обучение технических специалистов дата-центров и/или автоматизируйте процессы с помощью автономных инструментов, чтобы снизить риск простоев, вызванных человеческой ошибкой.

Заключение

Ни одно исследование тенденций простоя дата-центров не может выявить всего, что компании должны сделать для увеличения времени безотказной работы. Но данные Uptime Institute — это одни из самых свежих и подробных доступных сведений о том, что, по-видимому, вызывает перебои в работе и как компании могут снизить свои риски. И выводы очевидны: общие показатели простоев снижаются, вероятно, из-за увеличения инвестиций в резервирование, хотя человеческие ошибки остаются серьезной угрозой.