Наблюдаемость всего комплекса приложений расширяет понятие времени простоя для достижения безопасного, исключительного и производительного цифрового опыта, пишет на портале ITPro Today Джо Бирн, советник технического директора Cisco Observability.
Цифровой ландшафт продолжает развиваться, и операционные команды осознают, что они, по сути, работают вслепую, не наблюдая проблем, затрагивающих конечного пользователя. Это происходит в основном потому, что традиционные показатели бесперебойной работы приложений часто не отражают истинного опыта конечного пользователя.
Организации, ориентированные на цифровые технологии, взаимодействуют со своими клиентами и пользователями через множество цифровых точек контакта, начиная от POS-систем, веб-сайтов и каналов взаимодействия и заканчивая мобильными приложениями и даже смарт-устройствами. Сложные слои прикладных программных интерфейсов (API), облачные сервисы, уровни виртуализации и контейнерное ПО облегчают эти взаимодействия, охватывая облака, SaaS и локальные сети.
Команды, управляющие производительностью приложений, включая DevOps, SecOps, AIOps, ITOps и инженеров по надежности сайтов (SRE), обычно основывают свои оценки на соглашениях об уровне обслуживания (SLA) и других ключевых показателях эффективности (KPI), ориентированных на ИТ. Однако растущий переход к цифровым бизнес-моделям показал, что эти показатели не всегда соответствуют реальному цифровому опыту конечных пользователей.
Традиционный мониторинг работоспособности, который осуществляется на серверах, в облаках и на веб-сайтах и измеряет непрерывную доступность, часто не отражает «невидимые провалы». Эти проблемы с производительностью приложения остаются незамеченными, поскольку они возникают не на серверном уровне.
Они могут быть вызваны самим приложением, API, к которым оно обращается для доступа к данным, или сбоями в системе безопасности. Кроме того, на производительность могут влиять плохая связь, проблемы с мобильной сетью, нехватка ресурсов у платежных шлюзов или технические проблемы со сторонними плагинами.
В результате, хотя системы в рамках SLA могут работать в пределах допустимых параметров, если перед пользователями на экране появляется «вращающееся колесо», это означает, что сам сервис фактически недоступен.
Проблема еще больше усугубляется растущими ожиданиями конечных пользователей, которые требуют от приложений постоянной доступности и оперативной реакции. Конечный пользователь редко может понять первопричину проблем с производительностью, он просто связывает свой неудачный опыт с брендом. Опора на показатели SLA дает искаженную картину, в которой операционные команды сталкиваются со средой «неизвестных неизвестных», что приводит к негативным последствиям для бизнеса.
Производительность приложений и доверие — прямая зависимость
Очередное ежегодное исследование PwC показывает, как легко подорвать доверие к брендам, причем проблемы, связанные с обслуживанием, встречаются довольно часто. Потребители и сотрудники говорят, что такой плохой опыт часто заставляет их отказаться от сотрудничества с брендом — последствия не из приятных.
Поэтому крайне важно, чтобы любая оценка «времени работы» и «времени простоя» приложений учитывала невидимые простои, выражающиеся в снижении производительности приложений. Не менее важна и способность найти первопричину проблемы.
В связи с этим возникает задача, как оценить время простоя таким образом, чтобы оно отражало реальный опыт пользователя. Хотя командам по-прежнему необходимо соблюдать SLA, они также должны обеспечить оптимальную производительность приложений, поэтому стратегии, направленные на достижение этой цели, крайне важны.
Наблюдаемость всей экосистемы приложений, основанная на доступной телеметрии с аналитикой на основе ИИ и MО, которая обеспечивает релевантный, эффективный бизнес-контекст, является адекватным современным решением.
Это подразумевает комплексное представление о производительности приложений с точки зрения потенциального воздействия на конечного пользователя. Оно включает в себя видимость всех точек взаимодействия, включая приложения, конечных пользователей, сеть, безопасность и облако. Такой подход позволяет командам выявлять и понимать глубинные причины невидимых простоев.
Чтобы добиться этого, команды должны использовать огромные объемы входящих телеметрических данных о ежеминутной работе приложений, а также о поддерживающей инфраструктуре и зависимостях. Эти данные позволяют получить представление о состоянии и работоспособности приложений с помощью решений на основе наблюдаемости. Соотнесенные с бизнес-целями и преобразованные в действенные инсайты, они обеспечивают общий контекст, который команды могут использовать для калибровки и предоставления исключительного, безопасного цифрового опыта, оптимизации затрат и производительности, а также максимизации доходов.
Кроме того, с помощью этих данных команды могут определить приоритеты — какие проблемы простоя следует решать в первую очередь, исходя из их потенциального влияния на бизнес. Используя эту информацию, они могут легче понять, как проблемы с производительностью влияют на опыт работы с приложениями и, в конечном счете, на бизнес-показатели и результаты.
Целенаправленная борьба с невидимыми простоями
Успешная борьба с невидимыми простоями требует расширенного взгляда на входы и выходы наблюдаемых систем. К входам относятся стеки приложений и инфраструктуры, а к выходам — бизнес-транзакции и пользовательский опыт.
Существует огромное количество разрозненных инструментов мониторинга, каждый из которых имеет ограниченное представление о стеке приложений.
Некоторые отслеживают производительность сети и инфраструктуры на основе статических базовых показателей. Некоторые обеспечивают видимость приложений, но не имеют полного представления о сети, инфраструктуре и облаках. Другие выдают предупреждения о любом типе «аномального» поведения, практически не интерпретируя и не расставляя приоритеты. Ни один из них не позволяет эффективно использовать трассировку для отслеживания пути запросов от пользователя до конечных точек в распределенных топологиях приложений.
Развертывая эти различные решения для мониторинга, команды сталкиваются с еще большей сложностью ИТ-системы и еще бóльшими ограничениями. В сочетании с и без того сложным облачным ландшафтом сбор, обработка и понимание сигналов, скрытых в огромных потоках телеметрических данных, становится непосильной задачей для человека. Получать значимые инсайты достаточно быстро, чтобы решать проблемы в режиме реального времени, практически невозможно.
Широкая и контекстуализированная наблюдаемость по всей цепочке предоставления услуг и стеку приложений имеет решающее значение для решения этой проблемы, но одного этого недостаточно. Бизнес-контекст — это недостающее звено для успешного соотнесения технических характеристик ИТ-стека — безопасности, функций, приложений, инфраструктуры и операций — с бизнес-транзакциями и результатами.
Такой тип наблюдаемости позволяет отсортировать поток данных и, используя передовые методы аналитики на базе ИИ и MО, автоматически определить, где и как развиваются проблемы во всем ИТ-комплексе, чтобы принять меры по их устранению.
Это сокращает время между событием и реакцией, рассматривая производительность приложений в рамках целостной структуры, а не в изолированных внутренних ИТ-доменах или изолированных рабочих процессах. В результате вся организация переориентируется на приложения и цифровой опыт, который они обеспечивают, связывая проблемы ИТ, безопасности и даже вычислений и распределения ресурсов с проактивным планированием и бизнес-решениями.
Современные задачи требуют современных решений. Многие организации до сих пор практически не видят, как работают их конечные пользователи, несмотря на значительные инвестиции в соблюдение SLA по времени безотказной работы. Чтобы покончить с невидимыми простоями, им необходима полная наблюдаемость в собственном контексте.