Представьте себе древнюю притчу о слепых мудрецах, которые в полной темноте пытаются понять, что перед ними за существо. Один нащупывает ногу и уверенно заявляет: «Это массивная колонна». Другой трогает хобот и восклицает: «Нет, это гибкая змея». Третий ощупывает ухо и заключает: «Это большой веер». Каждый из них прав по-своему, но ни один не видит полной картины. Эта история удивительно точно отражает ситуацию во многих современных компаниях, где каждое подразделение обладает своими показателями, системами аналитики и мониторинга, но общей картины бизнеса не видно. Здесь на помощь приходит зонтичный мониторинг ИТ-окружения, который объединяет разрозненные данные и помогает увидеть «слона» целиком, обеспечивая непрерывность бизнеса и стратегическое преимущество.

Важна ли бизнесу непрерывность?

В современном динамичном и непредсказуемом мире способность компании продолжать свою деятельность без перерывов стала критически важной. Непрерывность бизнеса — это способность организации поддерживать критически важные функции во время и после серьезных инцидентов, будь то сбои в ИТ-системах, природные катаклизмы или другие кризисные ситуации. Согласно стандарту ISO 22301, система управления непрерывностью бизнеса (Business Continuity Management System) является ключевым элементом для обеспечения устойчивости и конкурентоспособности организаций.

Представьте себе крупный интернет-магазин, у которого внезапно перестает работать сайт в самый разгар распродажи. Каждая минута простоя оборачивается потерянными заказами, недовольством клиентов и ухудшением репутации. По данным исследования Gartner, средняя стоимость простоя ИТ-системы для бизнеса составляет около 5600 долл. в минуту. В некоторых отраслях, таких как финансовый сектор или авиаперевозки, эта цифра может быть в разы выше.

Измерить непрерывность бизнеса можно с помощью таких показателей, как RTO (Recovery Time Objective) и RPO (Recovery Point Objective). Целевые показатели RTO и RPO помогают установить максимальное допустимое время восстановления после сбоя и допустимый объем потери данных. Чем ниже эти показатели, тем выше способность компании быстро восстановиться после инцидента. Но как понять в реальном времени, все ли у нас хорошо? Какие показатели стоит отслеживать ежечасно или даже ежеминутно?

Здесь вступает в игру зонтичный мониторинг, который позволяет отслеживать критические метрики и оперативно реагировать на отклонения. Он обеспечивает прозрачность и контроль над всеми аспектами ИТ-инфраструктуры, что крайне важно для соблюдения договоренностей об уровне сервиса (SLA) и поддержания доверия клиентов и партнеров.

SLA (Service Level Agreement) — это соглашения об уровне сервиса между компанией и ее клиентами или партнерами, устанавливающие стандарты качества предоставляемых услуг. Они определяют ожидания сторон и служат основой для оценки удовлетворенности и ответственности.

Представьте себе интернет-провайдера, который обещает клиентам бесперебойный доступ к сети с доступностью 99,9%. Это означает, что допустимое время простоя за месяц не должно превышать 43 минуты. Если провайдер не выполняет эти обязательства, он может столкнуться с финансовыми штрафами или потерей клиентов. Зонтичный мониторинг помогает отслеживать эти показатели в режиме реального времени и предотвращать возможные нарушения SLA.

Или давайте возьмем крупную ИТ-компанию, которая заключила контракт на аутсорсинговую поддержку с внешним подрядчиком. В договоре прописаны SLA, согласно которым время реакции на критический инцидент должно составлять не более 15 минут, а время его устранения — не более 2 часов. Если подрядчик не выполняет эти условия, он несет финансовую ответственность в виде штрафов. Таким образом, SLA связывает уровень сервиса с контрактными обязательствами, а KPI помогает отслеживать их выполнение.

Роль ИТ в обеспечении непрерывности бизнеса: от поддержки к стратегическому партнерству

В прошлом ИТ рассматривались как вспомогательная функция, необходимая для обеспечения базовых операций компании. Однако в эпоху цифровой трансформации ИТ стали сердцем бизнеса, влияя на все аспекты деятельности — от производства до взаимодействия с клиентами.

Примеры из практики:

  • Банковский сектор. В 2018 году крупный британский банк TSB столкнулся с масштабным сбоем ИТ-системы при переносе данных на новую платформу. В результате 1,9 млн. клиентов потеряли доступ к своим счетам. По оценкам BBC, ущерб составил около 330 млн. фунтов стерлингов, не считая потери репутации.
  • Ритейл. В 2017 году сбой в работе кассовых систем сети супермаркетов Walmart в США привел к тому, что покупатели не могли совершать покупки в течение нескольких часов. По данным Bloomberg, компания потеряла около 150 млн. долл. за один день.
  • Промышленность. В 2020 году кибератака на производственные системы компании Honda привела к остановке заводов по всему миру. Это показало, насколько уязвимы производственные процессы перед ИТ-рисками.

По данным IDC, мировые расходы на ИТ в 2022 году достигли 4,5 трлн. долл., что подчеркивает значимость технологий в современном бизнесе.

Зонтичный мониторинг: увидеть целое, а не части

Возвращаясь к притче о слепых мудрецах и слоне, можно провести параллель с тем, как в компаниях часто происходит оценка ситуации. Каждое подразделение видит только свою часть «слона», не понимая, как это влияет на общий бизнес.

  • Что такое зонтичный мониторинг? Это интегрированная система, которая объединяет данные из различных источников — логов, метрик, событий из разных систем мониторинга — и представляет их в едином, структурированном виде. Это позволяет не только собирать информацию, но и понимать взаимосвязи между различными компонентами ИТ-инфраструктуры и их влиянием на бизнес-процессы.
  • Чем он отличается от классического мониторинга? Классический мониторинг фокусируется на отдельных элементах: серверы, сети, приложения. Зонтичный мониторинг объединяет все эти элементы, предоставляя целостное представление. Это как смотреть на карту города целиком, а не только на отдельные улицы.
  • Почему это средство для бизнеса, а не только инструмент технического специалиста? Зонтичный мониторинг позволяет менеджменту принимать обоснованные решения, основываясь на реальных данных о состоянии бизнеса. Это инструмент для повышения эффективности, снижения издержек и увеличения прибыли.

Какие подразделения будут будущими пользователями зонтичного мониторинга?

Зонтичный мониторинг предоставляет ценные данные и аналитические возможности, которые могут быть полезны различным подразделениям компании. В зависимости от объема и полноты обрабатываемых данных зонтичный мониторинг может выступать как система исключительно ИТ-отдела для более быстрого устранения инцидентов, так и как полноценная BI система оперативного уровня для отслеживания ключевых бизнес-показателей. Пользователями системы могут быть:

  1. ИТ-отделы и службы технической поддержки. Получают единый инструмент для мониторинга всей ИТ-инфраструктуры и окружения, что упрощает выявление и устранение инцидентами, повышает стабильность и производительность систем. Нередко в системах зонтичного мониторинга можно встретить широкие возможности автоматизации процессов устранения инцидентов и управления графиками дежурств инженеров (on-call management).
  2. Службы информационной безопасности. Могут использовать зонтичный мониторинг совместно с SIEM-системами для обнаружения аномалий и потенциальных угроз на более широком срезе данных, чем данные ИБ, обеспечивая более эффективную защиту и соответствие нормативным требованиям.
  3. Операционные отделы и продуктовые команды. Получают возможность отслеживать свои ключевые показатели эффективности (KPI) в реальном времени, оптимизировать бизнес-процессы и улучшать качество продукции или услуг. Также возможно организовать эффективный контроль подрядчиков и аутсорсеров в соответствии с SLA, рассчитываемых системой зонтичного мониторинга.
  4. Финансовые отделы. Имеют доступ к актуальным данным о затратах на эксплуатацию ИТ-систем, учет ИТ-активов, могут контролировать бюджет и анализировать эффективность инвестиций в технологии.
  5. Отделы маркетинга и продаж. Могут анализировать поведение клиентов, эффективность маркетинговых кампаний и взаимодействие с клиентами через различные каналы, что способствует улучшению стратегии привлечения и удержания клиентов, при подключении мониторинга пользовательского опыта и активности, при расчете показателей использования продуктов и сервисов.
  6. Руководство и стратегическое планирование. Получают целостное представление о работе всех бизнес-сервисов, что позволяет принимать обоснованные управленческие решения, оценивать риски и определять направления развития компании.
  7. Отделы по работе с клиентами. Могут использовать данные мониторинга для улучшения качества обслуживания, быстрого реагирования на проблемы и повышения удовлетворенности клиентов.
  8. Производственные отделы. В компаниях с собственным производством зонтичный мониторинг помогает отслеживать состояние оборудования.

Зонтичный мониторинг становится ключевым инструментом для обеспечения прозрачности и эффективности во всех аспектах цифроориентированного бизнеса. Его внедрение способствует улучшению коммуникации между подразделениями, ускоряет процессы принятия решений и повышает общую конкурентоспособность компании на рынке.

Основные KPI внедрения зонтичного мониторинга

  1. Снижение количества инцидентов. Благодаря использованию искусственного интеллекта и машинного обучения система может предсказывать возможные сбои и принимать превентивные меры. По данным Gartner, компании, внедрившие продвинутые системы мониторинга, сократили количество инцидентов на 40%.
  2. Сокращение времени устранения инцидентов. Автоматизация рутинных задач и структурированное представление данных ускоряют расследование и решение проблем. Зонтичный мониторинг дает анализ первопричин, сопоставляет данные с разных уровней ИТ и помогает определить степень влияния инцидента на бизнес. Forrester сообщает, что время восстановления после сбоев сокращается в среднем на 50%.
  3. Повышение эффективности работы персонала. Освобождая сотрудников от рутинных задач, компании могут направить их усилия на стратегические проекты. Это повышает мотивацию и удовлетворенность персонала.
  4. Улучшение качества обслуживания клиентов. Быстрое реагирование на проблемы и их предотвращение повышает уровень доверия и лояльности клиентов. Harvard Business Review отмечает, что повышение удовлетворенности клиентов на 5% может увеличить прибыль компании на 25-95%.

Разработать самостоятельно или выбрать готовое решение: почему зонтичный мониторинг на основе Open Source — сложная задача

Многие компании, стремясь оптимизировать затраты и получить максимальный контроль над своими ИТ-системами, рассматривают возможность создания зонтичного мониторинга на базе открытого программного обеспечения (Open Source). На первый взгляд, это кажется привлекательным решением: множество доступных инструментов, гибкость настройки и отсутствие прямых лицензионных затрат. Однако на практике разработка полноценной зонтичной системы мониторинга на основе Open Source сталкивается с рядом серьезных трудностей.

  • Сложность интеграции данных. Открытые решения часто специализируются на определенных областях мониторинга: одни хорошо работают с метриками, другие — с логами, третьи — с трассировкой. Чтобы собрать их воедино и обеспечить бесшовную интеграцию, требуется значительное время и усилия. Необходимо разработать собственные коннекторы к существующим системам мониторинга, адаптировать форматы данных и обеспечить согласованность между компонентами.
  • Сложность интеграции с российским стеком импортозамещения. Одной из существенных трудностей при создании зонтичного мониторинга на основе Open Source является интеграция с отечественным программным обеспечением в рамках политики импортозамещения. Готовых коннекторов и шаблонов мониторинга у Open Source-решений на такие системы отечественной виртуализации как zVirt, «РЕД», «Альт» или SpaceVM просто нет. А непредсказуемые изменения в политике западных Open Source-проектов уже начинают всерьез пугать ИТ-директоров. Так, например, в конце августа 2024 года команда OpenTofu объявила о прекращении работы с пользователями из России из-за соблюдения санкционных требований: из репозитория были удалены плагины для интеграции с российскими облачными сервисами, такими как Yandex Cloud, SberCloud и Rustack; разработчики начали принимать пул-реквесты с удалением Mail.ru, Selectel и др.; дополнительно был ограничен доступ к ресурсам проекта с российских IP-адресов.
  • Отсутствие единой поддержки и обновлений. Использование множества Open Source-инструментов означает зависимость от различных сообществ разработчиков. Обновления, исправления ошибок и новые функции могут выходить нерегулярно. При возникновении проблем компания остается один на один с задачей их решения, что может приводить к дополнительным затратам и рискам для бизнеса.
  • Высокие требования к квалификации персонала. Разработка и поддержка такой сложной системы требуют наличия в штате высококвалифицированных специалистов в разных областях: разработчиков, архитекторов, специалистов по безопасности. Это увеличивает расходы на персонал и создает зависимость от узкого круга сотрудников.
  • Отсутствие готовых функций искусственного интеллекта и машинного обучения. Многие коммерческие решения зонтичного мониторинга уже имеют встроенные модули ИИ и машинного обучения для предсказания сбоев и выявления аномалий. В Open Source аналогичные возможности либо отсутствуют, либо требуют дополнительной разработки и настройки, что увеличивает время и стоимость проекта.
  • Соответствие нормативным требованиям и безопасность. Коммерческие продукты обычно проходят сертификацию и соответствуют требованиям регуляторов, что особенно важно для компаний в финансовом, государственном и других регулируемых секторах. В случае с Open Source это требует дополнительных усилий по обеспечению безопасности и соответствия стандартам, включая возможную регистрацию в Реестре отечественного ПО Минцифры или будущую аттестацию во ФСТЭК. Некоторые системы мониторинга перестали поддерживать российское базовое ПО, это также накладывает определенные ограничения.
  • Общая стоимость владения (TCO). Хотя на первый взгляд Open Source-решения бесплатны, суммарные затраты на их внедрение, доработку, поддержку и обучение персонала могут превысить стоимость готовых коммерческих продуктов. По данным наших исследований общая стоимость владения собственными решениями на базе Open Source может быть на 30-50% выше, чем при использовании готовых продуктов с учетом всех скрытых затрат.

Критерии выбора системы зонтичного мониторинга

Если не разрабатывать самому, тогда как же выбрать подходящую систему?

При выборе системы зонтичного мониторинга одна из компаний лидеров металлургии учитывала следующие важные факторы:

  1. Функции искусственного интеллекта и машинного обучения. Система должна обладать возможностями предсказательного анализа, выявлять аномалии и предлагать рекомендации. Например, обнаруживать незаметные на первый взгляд отклонения в работе системы, которые могут привести к сбоям.
  2. Встроенные инструменты автоматизации. Это позволяет автоматизировать реагирование на стандартные инциденты, сокращая время реакции и устраняя человеческий фактор. Например, при превышении определенного порога нагрузки автоматически перераспределять ресурсы.
  3. Целостное представление данных. Система должна не просто собирать информацию, но и предоставлять ее в удобном для анализа виде, показывая взаимосвязи между различными элементами ИТ-инфраструктуры и их влиянием на бизнес-процессы.
  4. Интеграция и соответствие нормативным требованиям. Важно, чтобы система могла интегрироваться со всеми существующими в компании инструментами и соответствовала требованиям регуляторов. Это особенно ващно сейчас, в период активного импортозамещения. С 1 января 2025 года все значимые объекты критической информационной инфраструктуры должны работать на отечественном софте. В связи с этим зонтичный мониторинг должен иметь интеграции со всеми компонентами базового ПО организации, а это операционные системы, СУБД, системы виртуализации и контейнеризации и т. д. Также необходима регистрация в Реестре отечественного ПО Минцифры.

Практические примеры внедрения зонтичного мониторинга:

  • В 2020 году компания Netflix внедрила систему зонтичного мониторинга, интегрировав различные инструменты наблюдения в единую платформу. Это позволило получить целостное представление о состоянии ИТ-инфраструктуры и бизнес-сервисов. В результате время обнаружения и устранения инцидентов сократилось на 50%, что обеспечило бесперебойную работу сервиса для миллионов пользователей.
  • В 2018 году авиакомпания Delta Airlines столкнулась с масштабным сбоем ИТ-систем, что привело к значительным финансовым потерям. После этого инцидента компания внедрила систему зонтичного мониторинга с использованием ресурсно-сервисной модели. Это позволило снизить количество инцидентов на 35% и сократить время их устранения на 50%, обеспечивая надежность и доступность критически важных сервисов.
  • В 2019 году банк HSBC внедрил систему зонтичного мониторинга, объединив данные из различных систем наблюдения в единую платформу с ресурсно-сервисной моделью. Это позволило повысить прозрачность ИТ-операций и улучшить управление рисками. В результате время реакции на инциденты сократилось на 40%, а количество инцидентов уменьшилось на 30%, что повысило надежность предоставляемых банковских услуг.
  • В 2023 году один из крупнейших российских ритейлеров, столкнулся с необходимостью оптимизации своей ИТ-инфраструктуры, охватывающей более 1,1 млн. объектов. Для решения этой задачи компания внедрила систему зонтичного мониторинга, что позволило объединить разрозненные системы в единую платформу. В результате средняя продолжительность аварий сократилась на 30%, а количество инцидентов уменьшилось на 25%. Доступность критически важных ИТ-сервисов повысилась на 15%, что привело к снижению среднегодовых потерь валового дохода на 10%.
  • В 2024 году ведущий производитель стали в России завершил проект по автоматизации ИТ-мониторинга с переходом на отечественное решение зонтичного мониторинга. Это решение объединило данные из различных систем мониторинга, предоставив целостное представление о состоянии ИТ-инфраструктуры. В результате время реакции на инциденты сократилось на 40%, а количество инцидентов уменьшилось на 35%. Автоматизация рутинных операций повысила эффективность работы ИТ-персонала, что способствовало снижению операционных затрат.

Тренды рынка и значение для современного предприятия

В ближайшие годы российский рынок мониторинга, особенно зонтичного мониторинга, ожидает значительное развитие под влиянием нескольких ключевых тенденций.

  • Рост использования искусственного интеллекта и машинного обучения позволит обрабатывать большие объемы данных и принимать более обоснованные решения. Внедрение ИИ в системы мониторинга повысит точность прогнозирования сбоев и оптимизирует управление ИТ-инфраструктурой.
  • Переход к облачным технологиям и гибридным решениям увеличивает необходимость в инструментах, способных мониторить распределенные системы. Зонтичный мониторинг станет незаменимым для обеспечения целостного контроля над гибридными ИТ-средами, объединяя данные из различных источников в единую платформу.
  • Усиление требований к безопасности и соответствию нормативным актам заставляет компании искать решения, помогающие соблюдать стандарты и обеспечивать защиту данных. Зонтичный мониторинг, интегрированный с системами безопасности, позволит своевременно выявлять и реагировать на потенциальные угрозы, обеспечивая соответствие нормативным требованиям.
  • Поляризация мира и технологических стеков в условиях санкций и защиты внутренних рынков ведет к формированию автономных технологических стеков базового ПО и оборудования. Это стимулирует развитие отечественных решений в области мониторинга, адаптированных к специфике российского ИТ-ландшафта и обеспечивающих независимость от внешних поставщиков.

Таким образом, российский рынок зонтичного мониторинга будет активно развиваться, отвечая на вызовы цифровой трансформации и обеспечивая бизнесу инструменты для эффективного управления ИТ-инфраструктурой в новых условиях.

Для современного ИТ-директора зонтичный мониторинг становится не просто инструментом, а стратегическим партнером в управлении компанией. Он позволяет видеть полную картину, понимать взаимосвязи и принимать обоснованные решения, направленные на достижение бизнес-целей.

Почему это важно именно сейчас? В условиях растущей конкуренции и неопределенности способность быстро адаптироваться и реагировать на изменения становится ключевым фактором успеха. Зонтичный мониторинг предоставляет инструменты для этого, помогая компаниям оставаться на шаг впереди.

Николай Ганюшкин, управляющий партнер “Монк Диджитал Лаб”