Для многих ИТ-команд внедрение сквозной автоматизации одним махом — слишком резкое изменение. Лучше использовать философию «ползти, идти, бежать» («crawl, walk, run»), пишет на портале The New Stack Джозеф Мандрос, менеджер по маркетингу продуктов PagerDuty.

Требование постоянного поддержания работоспособности неумолимо. Однако по мере усложнения цифровой инфраструктуры инциденты и связанные с ними простои становятся не только более частыми, но и более разрушительными. Команды сталкиваются с двойной задачей — ориентироваться в сложных системах и одновременно бороться с сильным давлением, направленным на поддержание идеального цифрового опыта.

Ставки высоки: каждый инцидент рискует испортить впечатления клиентов и подорвать доверие, а финансовые последствия просто ошеломляют. Согласно нашему исследованию, перебои в работе могут стоить организациям до 20 млн. долл. в год, что создает огромную нагрузку как на ресурсы, так и на финансовые показатели.

Чтобы стимулировать рост бизнеса и сохранить конкурентные преимущества, организациям необходимо повысить эффективность работы своих команд ИТ-операторов и обеспечить, чтобы такие квалифицированные специалисты, как владельцы приложений и разработчики, занимались только важными, стратегическими задачами. Автоматизируя рутинные процессы, компании могут сократить время отклика, минимизировать дорогостоящие простои и дать командам возможность сосредоточиться на инновациях, а не на повторяющихся исправлениях. Для многих это означает переход к комплексной, сквозной автоматизации реагирования на инциденты для достижения операционного совершенства и обеспечения превосходного клиентского опыта.

Замедление работы

Исследование показало, что цифровые инциденты быстро становятся нормой, а не исключением, что отчасти объясняется недостаточными инвестициями в ИТ-инфраструктуру. Более половины (59%) опрошенных ИТ-руководителей заявили, что число инцидентов, затрагивающих клиентов, возросло, увеличившись в среднем на 43% за последние 12 месяцев.

Каждый из этих инцидентов имеет значительную стоимость, начиная от упущенных продаж и заканчивая потенциальными юридическими и нормативными проблемами, проблемами с курсом акций и срывом инновационных программ.

Команды часто сталкиваются с проблемой чрезмерных затрат времени на ручную диагностику, устранение повторяющихся проблем, обновление страниц состояния и общение с клиентами. Эта трудоемкая работа со временем влечет за собой значительные скрытые расходы, отнимая ценные ресурсы и влияя на итоговые финансовые результаты.

Помимо операционной нагрузки, эти задачи замедляют реагирование на инциденты, задерживают восстановление сервисов и ставят под угрозу доверие клиентов. Без оптимизированных, автоматизированных решений бремя ручного труда становится якорем, не позволяющим организациям достичь оптимальной эффективности и обеспечить бесперебойное и надежное обслуживание клиентов.

Начало работы с автоматизацией

Для достижения максимальной эффективности автоматизация должна быть внедрена на протяжении всего жизненного цикла инцидента — от поступления сигнала о событии до окончательного решения и извлечения уроков. Но для многих команд внедрение сквозной автоматизации одним махом — слишком резкое изменение. Лучшим подходом будет постепенное внедрение в различных бизнес-подразделениях. Это поможет продемонстрировать постепенные улучшения, которые могут привлечь и других. Это философия «ползти, идти, бежать». Давайте пройдемся по ней.

Ползти

В поисках быстрых побед в снижении нагрузки на реагирование на инциденты и ручные действия лучше всего начать с подавления избыточных уведомлений. Это позволяет остановить немедленную отправку уведомлений об инциденте с целью снижения перегрузки команд ITOps. Например, можно настроить правила, приостанавливающие уведомления о событиях до тех пор, пока их не поступит заранее определенное количество. Активировав этот порог, можно запустить рабочие процессы, которые организуют события и начнут обрабатывать инциденты, требующие принятия мер.

Еще одна большая победа на ранних этапах — устранение оповещений о временных или эпизодических событиях, которые обычно автоматически устраняются в течение короткого промежутка времени. Приостанавливая уведомления о них, команды могут дать им время для автоматического устранения. Это означает, что будут отмечаться только более длительные и, как правило, более серьезные инциденты.

Идти

С помощью хорошо продуманной платформы управления инцидентами команды могут оптимизировать и обогатить рабочие процессы реагирования на инциденты, обеспечивая не только возможность принятия мер, но и оптимизацию оповещений для предоставления важного контекста. Команды могут добиться этого различными способами, в том числе:

  • Обогащение событий ускоряет процесс сортировки, предоставляя специалистам по реагированию на инциденты соответствующую контекстную информацию и нормализуя данные о событиях, чтобы инциденты выглядели единообразно в разных командах. Это обеспечивает более эффективный и стандартизированный подход к реагированию на инциденты.
  • Обогащение оповещений позволяет организациям точно оценивать серьезность оповещений и стратегически грамотно применять политики эскалации. Например, оповещения, связанные с проблемами, влияющими на клиентов или доходы, классифицируются как более серьезные (например, инциденты уровня Sev1), гарантируя, что только самые важные проблемы дойдут до профильных экспертов.
  • Обогащение инцидентов позволяет специалистам по реагированию определять приоритеты, добавляя подробные примечания и рекомендации для быстрого решения. Эти заметки могут включать возможные первопричины, ссылки на внутренние ресурсы и стандартные операционные процедуры (SOP) — все это сокращает время реагирования и повышает последовательность в решении повторяющихся проблем.

Бежать

Последним шагом на пути к достижению полностью автоматизированного, сквозного реагирования на инциденты является внедрение систем, которые занимаются диагностикой и автономным разрешением распространенных инцидентов. С помощью таких инструментов, как веб-хуки, команды могут настроить автоматические триггеры, которые активируются при возникновении инцидента, собирают подробную диагностику или даже инициируют заранее определенные действия по разрешению. Благодаря настраиваемым заголовкам и полям полезной нагрузки веб-хуки предоставляют важные сведения об инциденте, устраняя необходимость в ручной диагностике и обеспечивая операторам немедленный доступ к полезной информации.

Эти автоматические триггеры также можно настроить на выполнение действий по устранению предсказуемых и рутинных проблем, что часто позволяет разрешать инциденты без вмешательства человека. Автоматизировав диагностику и устранение неполадок, организации могут сократить среднее время решения проблемы (MTTR), повысить производительность команды и сократить время простоя, что приведет к повышению операционной эффективности и надежности.

Информирование об успехах автоматизации

Для обеспечения динамики и бизнес-ценности программ сквозного реагирования на инциденты очень важно измерять и эффективно доносить информацию об их успехе до ключевых заинтересованных сторон. Это можно делать с помощью качественных методов, таких как изучение отзывов сотрудников и сравнение показателей текучести кадров между командами, внедрившими автоматизацию, и теми, кто ее не внедрил.

С количественной стороны организации могут оценить преимущества автоматизации, отслеживая ключевые показатели эффективности, такие как MTTR, отслеживая изменения в штрафах по соглашениям об уровне обслуживания (SLA) до и после автоматизации, а также анализируя флуктуации накладных расходов в связи с предоставлением услуг и временем работы персонала.

Хотя автоматизация не является панацеей, она играет важнейшую роль в повышении операционной эффективности, улучшении времени реагирования на инциденты и, в конечном счете, в обеспечении удовлетворенности клиентов и вовлеченности сотрудников. Демонстрируя эти ощутимые преимущества, организации могут обеспечить устойчивость и сохранить темпы своего продвижения по пути автоматизации, создавая более надежную и отзывчивую цифровую среду.