В большинстве случаев для достижения лучшего баланса, обеспечения устойчивой работы и более здоровой культуры труда не стоит стремиться к максимальным показателям доступности, пишет на портале The New Stack Аджинкья Махадео Гадж, ведущий инженер по разработке ПО Expedia Group

Достижение доступности на уровне пяти девяток (99,999%) является эталоном совершенства в распределенных системах. Такое время работы гарантирует всего 5 минут простоя в год, обеспечивая практически постоянную доступность и надежность. Несмотря на то что такая система обеспечивает большую отказоустойчивость и время безотказной работы, возникает вопрос: какой ценой?

Стремление к постоянной бесперебойной работе связано со значительными финансовыми, эксплуатационными и человеческими затратами. В погоне за пятью девятками часто упускают из виду некоторые аспекты, анализируя которые можно задаться вопросом, оправдывают ли себя вложенные средства, учитывая закон убывающей отдачи.

Финансовые затраты: инфраструктура и не только

Хотя большинство компаний среднего размера сейчас используют облачные технологии, необходимо учитывать капитальные затраты на резервирование локальной инфраструктуры для обеспечения высокой доступности. Чтобы обеспечить постоянную доступность, компаниям необходимо развернуть несколько центров обработки данных в разных географических точках.

Эти многочисленные дата-центры защищают от локальных сбоев, но их обслуживание требует определенных затрат, которые сводятся к следующему:

  1. Недвижимость и помещения. Аренда и покупка земли и зданий. Согласно отчету Uptime Institute, потенциальная стоимость создания дата-центра уровня Tier III может составлять 7-12 тыс. долл. за кв. фут. Для объекта площадью 10 тыс. кв. футов эта сумма может достигать 120 млн. долл.
  2. Оборудование. Для создания инфраструктуры высокой доступности серверы, системы хранения данных и сетевое оборудование должны быть продублированы на нескольких площадках. Один сервер стоит не менее 2 тыс. долл., а компании может потребоваться 100 серверов, что приведет к инвестициям в размере от 2 до 5 млн. долл.
  3. Сеть. Для обеспечения отказоустойчивости и балансировки нагрузки требуются высокоскоростные сетевые соединения между дата-центрами с резервированием. Они могут стоить от 100 тыс. до 1 млн. долл. в год, в зависимости от пропускной способности канала и уровня поддержки.

Операционные расходы

Затраты на управление сложными и многоуровневыми системами резервирования, сложными механизмами обхода отказа и множеством взаимосвязанных сервисов могут привести к эксплуатационным проблемам по следующим причинам:

  1. Повышенные требования к мониторингу. По мере роста инфраструктуры растет и потребность в мониторинге аномалий в режиме реального времени. Крупные предприятия ежегодно тратят от 50 тыс. до 200 тыс. долл. на такие решения, как Datadog, New Relic или Splunk. В некоторых сценариях также возникает необходимость в создании собственных решений для мониторинга, что увеличивает расходы.
  2. Повышенная потребность в управлении инцидентами. При расширении масштабов мониторинга очень важно обрабатывать инциденты с помощью надежных процессов управления инцидентами, определяемых регламентами, протоколами эскалации и коммуникационными стратегиями. Согласно отчету Ponemon Institute «Cost of Data Breach Report», средняя стоимость утечки данных в 2023 г. составила примерно 4,45 млн. долл. Хотя не все инциденты приводят к утечкам, затраты, связанные с простоем, расследованием и устранением последствий, могут быть значительными. Даже незначительные инциденты могут нарушить работу сервисов и потребовать много ресурсов, особенно в системах, рассчитанных на высокую доступность.
  3. Повышенная потребность в обеспечении качества и тестировании. Многоуровневая инфраструктура требует тщательного тестирования, включая:
    • Учения по аварийному восстановлению: регулярное моделирование сценария аварийного восстановления для обеспечения активных и функциональных процессов восстановления. Затраты связаны с временем персонала, распределением ресурсов и потенциальным нарушением нормальной работы.
    • Пен-тестирование: частое сканирование и тестирование, чтобы убедиться, что все сервисы доступны и не являются уязвимыми.
    • Тестирование производительности: постоянный мониторинг возможностей системы при пиковых нагрузках и способности динамически масштабироваться без ущерба для доступности.

Гипотетическая гистограмма, сравнивающая затраты на аварийное восстановление, тестирование на проникновение и тестирование производительности для различных уровней доступности для предприятия среднего размера

Человеческие затраты

Когда вы думаете о высокой доступности, на первый план всегда выходят финансовые и операционные соображения; однако человеческие затраты на обслуживание этих систем также имеют решающее значение. Воздействие на ИТ-операции и команды достаточно велико, чтобы повлиять на их общее благосостояние и удовлетворенность работой. Вот некоторые из этих факторов (список ими не ограничивается):

  1. Стресс и выгорание. Стремление к пяти девяткам приводит к тому, что значительное количество персонала находится в круглосуточном доступе для немедленного решения любых проблем. Ожидание мгновенного реагирования на инциденты приводит к созданию обстановки высокого давления. Страх перед серьезными последствиями еще больше усугубляет ситуацию — репутационный ущерб или потеря работы, если доступность услуг будет нарушена. Это также оказывает серьезное влияние на психическое здоровье.
  2. Человеческий фактор в количестве ошибок. В условиях высокого давления вероятность ошибок, вызванных человеческим фактором, возрастает.
  3. Текучесть кадров. Высоко стрессовая обстановка также приводит к увеличению текучести кадров, поскольку разработчики избегают напряженной обстановки и стремятся к лучшему балансу между работой и личной жизнью.

Закон убывающей отдачи

Согласно этому экономическому принципу, по мере увеличения инвестиций в определенную область, прирост производительности в конечном итоге снижается. Если применить этот принцип к стремлению обеспечить высокую доступность распределенных систем, то можно сделать вывод, что после определенного момента дополнительные инвестиции дают все менее значительные улучшения в плане времени безотказной работы.

Переход от 99% к 99,9% часто дает значительный прирост производительности в плане удовлетворенности клиентов и надежности. Он также является наиболее экономически эффективным, поскольку может быть достигнут путем внедрения стандартных методов резервирования инфраструктуры, управления инцидентами и мониторинга. Однако при переходе от 99,9% к 99,99% или 99,999% затраты резко возрастают из-за всех факторов, о которых мы упоминали ранее, таких как усиленное резервирование, мониторинг и всестороннее тестирование.

По мере роста инвестиций снижается и отдача, измеряемая в сокращении времени простоя. Например:

  1. Переход от доступности 99,9% к 99,99% приводит к снижению времени простоя с 8,76 часов в год до 52,6 минут в год. Хотя это улучшение может показаться заметным, затраты оправданы только в таких специфических отраслях, как финансы и здравоохранение.
  2. Переход от 99,99% к 99,999% доступности еще больше сокращает время простоя до 5 минут в год. Это также требует значительных затрат; большинство организаций с трудом смогут оправдать эти расходы.

Как вы понимаете, баланс между стоимостью критических и некритических систем очень важен. Предприятия должны различать критически важные и некритически важные системы и стремиться к повышенной доступности только в тех случаях, когда простои могут существенно повлиять на репутацию или расходы.

Заключение

Достижение уровня «пять девяток» связано со значительными организационными, операционными, финансовыми и человеческими затратами.

Хотя конкретным организациям в конкретных отраслях имеет смысл стремиться к пяти девяткам, большинство организаций должны соизмерять затраты с выгодами.

В большинстве случаев для достижения лучшего баланса, обеспечивающего устойчивое функционирование и более здоровую культуру труда, стоит стремиться к более низкому показателю доступности. По мере развития систем становится не менее важным уточнять потребность в доступности, отдавая приоритет устойчивости, гибкости и благополучию людей, стоящих за этими системами.