В облачной системе Azure компании Microsoft произошел серьезный сбой, который вызвал отказы в работе веб-сервисов в США, Европе, Японии, Бразилии, Азиатско-Тихоокеанском регионе и даже привел к остановке собственных информационных ресурсов Microsoft, таких как MSN.com, Office 365 и Xbox Live.
На устранение проблем потребовалось почти 11 часов. Как сообщает Microsoft, причиной стало обновление, направленное на повышение производительности работы сервиса хранения данных Azure Storage. Несмотря на длительное предварительное тестирование, при развертывание этого обновления проявилась ошибка, которая вызвала отказ Azure Storage и других связанных с ним сервисов. В частности, это привело к тому, что эти сервисы стали неправильно отображать состояние Azure Storage. Многие пользователи отмечали, что на странице состояния Azure было указано, что все работает нормально, хотя на самом деле это было не так.
Хотя причина сбоя была быстро обнаружена, на устранение его последствий потребовалось немало времени из-за нарушения регламента работы. Вместо того, чтобы развертывать обновление постепенно, как требовал регламент, это было сделано почти сразу по многим регионам.
Microsoft обещала извлечь урок из этого события за счет ужесточения правил развертывания изменений, улучшения методов восстановления после сбоя, устранения причины данной ошибки и усовершенствования инфраструктурных инструментов и протоколов.
Однако такой серьезный сбой, уже второй за последние три месяца, может стать серьезным препятствием для облачного бизнеса компании Microsoft, которая конкурирует в этой области с Amazon, IBM, Google и другими игроками.
В число пользователей Azure входят такие крупнейшие компании, как Easyjet, Toyota, Tesco, eBay, Boeing и Apple. Однако в основном облачными услугами пользуются небольшие предприятия, которые стараются сэкономить затраты за счет аутсорсинга ИТ-услуг. Они пострадали из-за сбоя в наибольшей степени. У одних отключился веб-сайт, другие почти целый день не могли воспользоваться офисными приложениями и электронной почтой.
В результате среди пользователей распространяется мнение, что облачные технологии еще недостаточно зрелые для того, чтобы переводить на них всю ИТ-инфраструктуру организации.
Некоторые аналитики с эти согласны, указывая на то, что и в других облачных системах, включая облако Amazon, происходят отказы, которые приводят к перебоям в работе публичных облачных сервисов и ИТ-операций предприятий. Это связано с тем, что облачные технологии находятся еще на раннем этапе развития, когда вероятность сбоев еще велика.
Чтобы сократить время простоя, специалисты советуют пользователям развертывать свое ПО в облачных структурах, находящихся в разных регионах или даже в облаках разных компаний. Однако это не всегда возможно. Например, в Европе действуют строгие правила, по которым многие компании должны хранить данные в ЦОДах, находящихся на территории ЕС.