Представьте себе мир, где привычные цифровые инструменты внезапно перестают работать. Телефоны молчат, сообщения не отправляются, социальные сети недоступны. Такая картина кажется апокалиптической, но в 2024 году мы столкнулись с подобными ситуациями не раз. Глобальные сбои в работе крупных технологических компаний показали, насколько наша жизнь и бизнес зависят от устойчивости ИТ-инфраструктуры. Рассмотрим наиболее значимые инциденты года и разберемся, какую роль в предотвращении и минимизации последствий таких сбоев играет мониторинг.

Сбой сотовой связи

1 ноября 2024 года большое число пользователей МТС по всей России внезапно остались без связи. Официальная причина сбоя не была раскрыта. Обычно причинами таких инцидентов становятся технические конфликты в обновлении программного обеспечения сетевого оборудования. В данном случае в течение десятков минут абоненты Тверской и Нижегородской областей не могли получить услугу доступа в Интернет у себя дома, наблюдались проблемы со звонками, отправкой SMS и мобильным Интернетом.

Для многих людей это стало настоящим стрессом: в эпоху мобильных технологий оказаться без связи — словно потерять часть себя. Но для бизнеса последствия были еще серьезнее. Компании, зависимые от мобильной связи для работы курьеров, координации сотрудников и обработки заказов, потеряли не только время, но и деньги, а главное — доверие клиентов. Курьеры не могли связаться с клиентами, менеджеры — с командой, а онлайн-платежи задерживались.

После инцидента сотрудники МТС должны были провести ряд обязательных действий по предотвращению подобных проблем в будущем, включая проверку своей инфраструктуры. Такие случаи наглядно демонстрируют, насколько важно тщательно тестировать обновления перед их внедрением. Стресс-тестирование, моделирование возможных проблем и разработка сценариев аварийного восстановления должны стать неотъемлемой частью процессов крупных компаний. В 2024 году такие практики еще не были повсеместно распространены, но этот инцидент послужил уроком для многих.

Банк в офлайне

5 марта 2024 года пользователи «Т-Банка» сообщили о проблемах с доступом к мобильному приложению и сервису «Тинькофф Инвестиции». Согласно данным сервиса «Сбой.рф», было зафиксировано около 1400 жалоб на работу сервисов банка. К 16:32 по московскому времени количество сообщений о сбое превысило 1900. Пользователи отмечали невозможность войти в приложение и осуществлять инвестиционные операции.

19 июля 2024 года пользователи «Т-Банка» столкнулись с проблемами при осуществлении переводов через мобильное приложение. При попытке совершить перевод приложение сообщало: «Платежи и переводы могут не работать. Уже исправляем».

Этот сбой произошёл на фоне глобальных проблем в работе ИТ-систем, связанных с неполадками в сервисах Microsoft Azure и CrowdStrike Falcon Sensor. Однако в «Т-Банке» заверили, что их сервисы функционируют в штатном режиме, несмотря на глобальные сбои. Тем не менее, некоторые клиенты продолжали испытывать трудности с переводами. Одновременно с этим Минцифры России на фоне массовых проблем за границей отметило важность импортозамещения и подчеркнуло отсутствие проблем у отечественных акомпаний, слабо зависящих от сервиса защиты от киберугроз CrowdStrike.

Представители «Т-Банка» заявили, что проблема затрагивает «небольшое число» клиентов и специалисты работают над её устранением. Однако масштабы сбоя и количество жалоб свидетельствовали о более серьёзной проблеме, чем первоначально предполагалось.

Глобальный сбой соцсетей

5 марта 2024 года ошибка в системе маршрутизации BGP привела к тому, что на несколько часов оказались недоступны не только социальные сети Facebook и Instagram (принадлежат компании Meta, которая признана экстремистской и запрещена в России), а также WhatsApp, но и внутренние инструменты. Миллионы пользователей по всему миру не могли общаться с друзьями и семьей, а бизнесы, зависящие от этих платформ, понесли убытки.

Для многих компаний, использующих социальные сети для рекламы и коммуникации с клиентами, этот сбой стал серьезным ударом. Прямые финансовые потери составили сотни миллионов долларов, а репутационные последствия ощущались еще долгое время. Пользователи начали задумываться о надежности этих сервисов, а некоторые бизнесы стали искать альтернативные платформы для взаимодействия с аудиторией.

Сбой Microsoft: ноябрьские неполадки

В конце года 25 ноября 2024 года произошел очередной крупный сбой, на этот раз в ИТ-сервисах Microsoft. Из-за ошибки в коде в Microsoft 365, Exchange Online и Outlook произошли серьезные неполадки. Пользователи по всему миру столкнулись с невозможностью отправлять и получать электронную почту, пользоваться календарями и другими инструментами корпоративной коммуникации.

Сбой начался около 21:00 по московскому времени. При открытии электронной почты Outlook пользователи видели сообщение: «Ваш запрос не может быть выполнен прямо сейчас». Возникали проблемы с отправкой сообщений, сохранением черновиков и поиском писем. Техническая поддержка Microsoft изначально указывала, что все работает в штатном режиме, однако позже компания признала наличие проблемы.

Технические проблемы коснулись услуг Exchange Online, Microsoft 365 и Teams. У пользователей возникли сложности с отправкой сообщений и доступом к календарю в Teams, а также с приложением Outlook для Mac. Некоторые пользователи сообщали, что не могут войти в свои аккаунты и проверить почту.

Microsoft заявила в социальной сети X (бывший Twitter), что ее специалисты работают над решением проблемы. Компания выявила недавнее изменение, которое привело к сбою, и начала откатывать его. Однако оперативно устранить сбой не удалось, и проблемы сохранялись в течение нескольких часов.

Проблемы затронули пользователей по всему миру, включая США, Японию, Германию, Великобританию, Португалию и другие страны. Это привело к серьезным нарушениям в коммуникации сотрудников и функционировании различных бизнесов, зависимых от сервисов Microsoft.

Летний глобальный сбой Microsoft

Ранее, 19 июля 2024 года, произошел еще один крупный технический сбой, связанный с онлайн-сервисами Microsoft. Он повлиял на работу американских и европейских банков, операторов мобильной связи и почтовых сервисов.

Сбой привел к отмене всех рейсов крупнейших авиакомпаний в США, включая Delta, United и American Airlines, из-за проблем со связью. Frontier Airlines также приостановила полеты, объяснив это проблемами с онлайн-сервисами Microsoft. Аэропорты в Германии, Испании, Турции и других странах столкнулись с серьезными трудностями, приводившими к задержкам и отменам рейсов.

Проблемы затронули банковскую систему. Крупнейший банк Австралии Commonwealth Bank сообщил о проблемах с обслуживанием, в Канберре не работали кассы в супермаркетах. Пострадал крупнейший в Южной Африке банк Capitec Bank с 22 млн. клиентов, а также банковская система Израиля.

Компания LSE Group, управляющая Лондонской фондовой биржей, столкнулась с невозможностью оперативно публиковать новости. В Британии от сети отключался телеканал Sky News, а пациенты не могли записаться на прием к врачу через онлайн-форму.

Причиной глобального сбоя стали проблемы в работе систем Microsoft. У многих пользователей компьютеров на операционной системе Windows отображался «синий экран смерти» из-за критических нарушений. Это происходило после установки обновления программного обеспечения от фирмы CrowdStrike, занимающейся кибербезопасностью. Обновление для антивируса Falcon вступило в конфликт с Windows 10. В CrowdStrike заявили, что занимаются откатом проблемного обновления.

Интересно, что глобальный ИТ-сбой в продуктах Microsoft практически не затронул российские, иранские и китайские компании. Генеральный директор хостинг-провайдера RUVDS Никита Цаплин отметил, что CrowdStrike не была популярна в России, а с некоторых пор и вовсе отказалась работать с россиянами. Благодаря этому ущерб для российских пользователей был минимален.

Роль мониторинга в предотвращении и сокращении сбоев

Эти инциденты показывают, насколько критичен для бизнеса стабильный доступ к ИТ-сервисам. Важнейшую роль в предотвращении подобных сбоев и минимизации их последствий играет эффективный ИТ-мониторинг.

Системы мониторинга с предиктивной аналитикой и искусственным интеллектом способны обнаруживать предвестники проблем, позволяя предпринять меры заранее. Это помогает избежать критических сбоев, которые могут привести к финансовым потерям и потере доверия клиентов.

Если сбой все же произошел, мониторинг позволяет быстро выявить корневую причину проблемы. Это сокращает время простоя сервисов, минимизируя негативное влияние на бизнес-процессы.

Мониторинг помогает эффективно распределять ИТ-ресурсы, предотвращая перегрузки и обеспечивая стабильную работу систем. Это особенно важно для компаний, которые зависят от непрерывного предоставления услуг клиентам.

Оперативное реагирование на инциденты и минимизация их последствий поддерживают высокий уровень доверия со стороны клиентов и партнеров.

Например, в случае с банком мониторинг мог бы заранее выявить перегрузку серверов и предупредить техническую команду о необходимости масштабирования ресурсов. В ситуации с телеком-компанией эффективный мониторинг обновлений мог бы обнаружить предвестники инцидента, предотвратив массовый сбой.

Для бизнеса это означает сокращение финансовых рисков, повышение эффективности операций и сохранение конкурентных преимуществ. Инвестиции в современные системы мониторинга становятся стратегически важным решением для устойчивого развития компании.

2024 год показал нам, насколько уязвимы даже самые крупные и технологически продвинутые компании перед лицом ИТ-сбоев. Ошибки в обновлениях, перегрузки серверов, конфликты программного обеспечения — все это может привести к масштабным проблемам, затрагивающим миллионы пользователей и наносящим серьезный ущерб бизнесу.

Внедрение комплексного мониторинга, интегрированного в процессы разработки и эксплуатации, становится не просто рекомендацией, а обязательным условием для успешного ведения бизнеса в цифровую эпоху. В отдельной статье про типизацию мониторинга мы более подробно расскажем какие бывают виды мониторинга и в чем они помогают бизнесу. Те компании, которые осознают это и инвестируют в современные технологии, будут лучше подготовлены к вызовам будущего и смогут обеспечить своим клиентам надежность и качество сервисов, которых они ожидают.

В следующей статье мы более подробно рассмотрим, что такое корневая причина сбоя и как ее можно идентифицировать.

Николай Ганюшкин, управляющий партнер “Монк Диджитал Лаб”