Пандемия коронавируса значительно ускорила цифровую трансформацию, и новые данные опроса McKinsey наглядно демонстрируют истинный масштаб изменений. Анирбан Чаттерджи, директор по маркетингу продуктов BigPanda, рассказывает на портале eWeek о том, как получить полную отдачу от инвестиций в инструменты управления ИТ-операциями и избежать проблем с производительностью и простоев.

Многим людям термин «цифровая трансформация» уже успел набить оскомину, но как бы то ни было он по-прежнему представляет собой императивную стратегию для предприятий, желающих выжить в сегодняшней динамичной бизнес-среде, не говоря уже о росте и повышении рыночной ценности. Компании, желающие снизить операционные издержки, повысить производительность и скорость бизнеса, должны трансформироваться. Применительно к ИТ-операциям (IT Ops) это часто означает следующее:

  • миграция в облако или создание гибридных облачных архитектур;
  • модернизация унаследованных приложений;
  • расширение применения автоматизации и искусственного интеллекта с помощью инициатив AIOps;
  • переход к моделям DevOps/SRE — автономным, децентрализованным командам, ориентированным на продукт;
  • расширение удаленных ИТ-операций (с прошлого года).

Как свидетельствуют данные опроса McKinsey, пандемия значительно ускорила трансформацию. В 2020 г. команды IT Ops во всем мире столкнулись с беспрецедентной по своей сложности задачей — в ускоренном темпе перейти на удаленные рабочие места, сохранив при этом работоспособность систем для бесперебойной работы бизнеса. В целом им удалось не только ускорить перевод операций на удаленку, но и оказать влияние на остальные тенденции, упомянутые выше.

По оценкам McKinsey, всего за несколько месяцев кризис COVID-19 привел к структурным изменениям в способах ведения бизнеса во всех секторах и регионах. И был достигнут столь быстрый рост доли цифровых продуктов в портфелях компаний, который, если бы не пандемия, растянулся бы на семь лет.

Опрошенные компании сообщили, что проекты трансформации, которые, как ожидалось, займут более года, на самом деле были завершены менее чем за месяц. Хотя во многих отношениях это хорошая новость, она также говорит о растущих проблемах для операционных команд: когда вы двигаетесь так быстро, риск сбоев также возрастает.

Быстрое движение — причина растущих проблем

Проблемы операционистов, связанные с инновациями, модернизацией инфраструктуры и приложений, которые к тому же усугубляются необходимостью ускорения, в целом можно разделить на три основные области:

  • проблемы с инструментами и наглядностью: отсутствие, неправильный выбор или излишне большой набор инструментов мониторинга могут привести к одной и той же проблеме с наглядностью, потому что слишком большое количество источников противоречивой информации приводит к дезориентации команд — либо они из-за отсутствия оповещений пропускают критически важные события, либо их бомбардируют чрезмерным потоком оповещений.
  • слабые диагностические возможности и медленное восстановление: когда команды сталкиваются с противоречивыми, параллельными потоками данных, это часто приводит к множеству ложных срабатываний. Как следствие, ИТ-отдел возвращается к устаревшим процессам решения проблем, а это, в свою очередь, приводит к тому, что несколько команд, задействованных в различных приложениях или сервисах, участвуют в длительных и неэффективных сеансах связи или отладочных сессиях. Этот неэффективный обмен информацией между многими заинтересованными сторонами может в конечном итоге привести к растрате ресурсов и увеличению расходов.
  • рабочие процессы, выполняемые в ручном режиме: все вышеперечисленное приводит к тому, что команды IT Ops не успевают внедрить автоматизацию, так как они заняты ликвидацией точечных проблем. Люди и инструменты часто оказываются разобщенными и изолированными, что приводит к тому, что они продолжают полагаться на ручные процессы.

Цена быстрого движения и прорыва

По сути, команды IT Ops застряли на стадии событийного реагирования (reactive firefighting):

  • несмотря на инвестиции в инструменты мониторинга мирового класса, они все еще сталкиваются с продолжительными сбоями, инцидентами и проблемами с производительностью, которые пытаются решить с помощью большого количества отдельных консолей;
  • высококвалифицированных специалистов привлекают к решениям локальных проблем;
  • у экспертов нет простых ответов на вопросы «Что изменилось?» и «Что на это повлияло?».

Так как же быстро продвигать бизнес, получить полную отдачу от инвестиций в инструменты и избежать проблем с производительностью и простоев?

Как справиться с риском инноваций

Во-первых, приведите в порядок свои средства слежения за работой инфраструктуры. Убедитесь, что у вас есть инструменты, которые обеспечивают полную видимость всей вашей организации (разработчиков, операционных команд, службы безопасности и даже руководителей бизнеса), отслеживая все — от инфраструктуры, сети, приложений и служб вплоть до конечных пользователей. Убедитесь, что к инструментам можно подключить метрики, трассировки и журналы, чтобы можно было видеть, что и почему происходит с вашей инфраструктурой. Очень важно обладать возможностью для сопоставления метрик инфраструктуры, приложений и пользователей с трассировками и журналами. Если возможно, добавьте обнаружение аномалий для интеллектуального оповещения.

Затем добавьте слой корреляции событий и автоматизации. Сравните оповещения, полученные вашими инструментами наблюдения, с резко меньшим числом высокоуровневых, насыщенных информацией инцидентов, которые дают инструменты на базе машинного обучения и ИИ. Добавьте этим инцидентам контекст, принимая во внимание топологию источников. Затем используйте машинное обучение и ИИ, чтобы определить первопричину инцидентов, в том числе соотнести их с потоками данных из ваших инструментов для внесения изменений (CI/CD, оркестрация, управление изменениями и аудит), чтобы определить, являются ли причиной сбоя какие-либо изменения, которые были сделаны в вашей среде.

Наконец, автоматизируйте как можно больше процессов, которые выполняются вручную. Чтобы избавить команду ИТ-специалистов от трудоемких задач, найдите аспекты жизненного цикла управления инцидентами, которые выполняются в ручном режиме, и автоматизируйте их. Внедрение инструментов для совместной работы позволит оптимизировать работу ИТ-команд — это даст им возможность сосредоточиться на модернизации и инновациях для бизнеса.