Идо Ниман, генеральный директор и соучредитель компании Firefly, комментирует на портале The New Stack выводы нового отчета Gartner о тенденциях развития инженерии надежности высоконагруженных сервисов (Site Reliability Engineering, SRE) на 2024 год.

В июне Gartner опубликовала свой очередной «Hype Cycle for SRE, 2024», представив в нем тенденции — рост, спад и пик — которые предприятия могут использовать при принятии решений в области SRE. Согласно исследованию, лидеры отрасли, включая AWS, Google, Microsoft и Red Hat, расширяют границы возможного в области SRE и платформенного инжиниринга во многих областях и категориях, включая искусственный интеллект, который находится на пике.

Эти компании вкладывают значительные усилия и инженерные разработки в ИИ, полагая, что следующей волной будет встраивание возможностей ИИ в инструментарий и платформы DevOps. Речь идет не только о предоставлении внеконтекстных фрагментов кода, но и о настоящем понимании нюансов и сложностей современных облачных сред и использовании уникальных возможностей ИИ для вывода наших систем на новый уровень. Именно поэтому я считаю, что будущее SRE будет сосредоточено на предоставлении решений, которые учитывают особенности облачных сред и являются контекстно-интеллектуальными.

ИИ должен понимать все: от Git до GitOps, микросервисные среды и облачные сложности, процессы и потоки CI/CD, чтобы оказывать по-настоящему ценную помощь и предоставлять глубокие инсайты.

Хотя ИИ является одним из главных трендов в области SRE в этом году, вот некоторые другие области, которые показались мне наиболее интересными в отчете Gartner.

Унифицированная политика как код

Одним из наиболее интересных событий является растущая динамика политики как кода (PaC). Хотя многие компании утверждают, что они используют PaC, существует широкий спектр ее возможных реализаций.

Важно рассматривать PaC в контексте CI/CD и среды выполнения. Сосредоточение внимания только на одной области — например, сканирование кода, применение политики CI/CD только при развертывании и GitOps или обеспечение безопасности среды выполнения только после развертывания или исправления — не обеспечит полного охвата. Сочетание PaC и автоматизации с помощью ИИ для создания таких политик и ограждений — вот где кроются настоящие инновации в применении автоматизации в масштабе.

Надежная PaC также является основой Governance as Code (GaC) — новой категории, которая также известна как автоматизация непрерывного соблюдения требований DevOps. Различия между политикой и соблюдением требований заключаются в управлении и гигиене. Такие общие задачи, как правильная маркировка, сборка мусора и внедрение проверок работоспособности (liveness probes) в каждое развертывание Kubernetes, являются важными аспектами соблюдения требований. Если оно может быть реализовано в виде кода, то может быть автоматизировано и реализовано более последовательно и комплексно.

Кодификация всего SaaS

Кодификация всей облачной среды — «от кода до облака» — позволяет инженерным организациям применять одинаковые методы кодирования во всех облаках. Это позволяет относиться ко всем платформам как к инфраструктуре, включая мониторинг, управление производительностью приложений, системы контроля версий, сети доставки контента и все остальное.

Управление разнообразием платформ SaaS в виде кода имеет множество преимуществ. Поэтому неудивительно, что Gartner включила мониторинг как код (Monitoring as Code, MaC) в отчет 2024 г. MaC, как и все, что связано с управлением в виде кода, позволяет управлять системами мониторинга так же, как и всей инфраструктурой как кодом.

Оркестрация инфраструктуры с помощью рабочих процессов

Оркестровка инфраструктуры требует лучшей автоматизации, управления конвейером CI, а также переносимости, воспроизводимости и визуализации на единой платформе, чтобы соответствовать тому темпу, который необходим бизнесу сегодня. Традиционные подходы к управлению CI/CD фрагментированы и болезненны для всего ПО и инфраструктуры.

Воспроизводимость требует понимания всей облачной среды и внедрения защитных механизмов в виде обнаружения дрейфа и неправильной конфигурации на всех этапах развертывания и выполнения. Создание таких механизмов для обеспечения соблюдения политики — будь то безопасность, соображения стоимости или качество кода — позволяет платформенным инженерам предоставлять разработчикам большую автономию.

Неизменяемая инфраструктура и устойчивость облачных сред

Неизменяемая инфраструктура (immutable Infrastructure) — это ключ к тому, чтобы среды оставались согласованными и надежными после развертывания. Одним из способов достижения этой цели является автоматизация управления устойчивостью облачных сред, позволяющая обнаруживать и автоматически устранять сбои и неправильные конфигурации, а также предотвращать производственные ошибки. Автоматическое исправление помогает быстро устранять проблемы в облаке, поддерживая целостность и производительность производственных сред.

Многие облачные конфигурации еще не готовы к сложным сценариям. Например, рассмотрим недавний катастрофический сбой в облаке UniSuper. Несмотря на то что менеджер инфраструктуры UniSuper создал отдельную резервную копию (за что он заслуживает почетной медали), UniSuper потребовалась целая неделя на восстановление.

Это связано с тем, что восстановление после такого серьезного сбоя требует не только резервных копий систем и данных, но и резервных копий конфигураций. Инновации в области устойчивости облачных сред и автоматизированного восстановления и реагирования на инциденты предусматривают наличие кодифицированных резервных копий всех конфигураций ваших систем в облаке. Это поможет сделать восстановление быстрым и комплексным, с минимальным временем простоя — даже в случае огромной катастрофы.