ИТ-руководителям предприятий, стремящимся обеспечить отличный опыт работы в Интернете, следует использовать те же стратегии, что и тем, кто отвечает за обеспечение потоковой трансляции таких масштабных событий, как чемпионат мира по футболу, пишет на портале Network Computing Джоделл Моренси, старший инженер по решениям NS1, дочерней компании IBM.
Люди смотрят на такие события, как чемпионат мира по футболу, чтобы увидеть спортсменов самого высокого уровня на пике их возможностей, но эти трансляции также представляют собой звездный час для менее известной группы людей, добивающейся предельных результатов: команды бэкенд-инженеров, облачных/DevOps-специалистов и инженеров по надежности систем (SRE), которые готовят и поддерживают инфраструктуру, необходимую для функционирования видеопотоков в условиях огромного трафика. Обеспечение успешного проведения массовых онлайн-мероприятий и получение отличных впечатлений от них требует не меньше планирования, усилий и быстрого мышления, чем победа в чемпионате.
Жаль, что эта работа остается за кадром, ведь можно многому научиться, наблюдая за ее ходом. Скачки спроса требуют тщательного планирования для снижения рисков и поддержания оптимальной производительности.
При правильном сочетании подготовки, технологий и гибкости любая сетевая команда может обеспечить отказоустойчивость и предоставить каждому пользователю возможность стабильной и бесперебойной работы. Для того чтобы заложить основу для такого успеха, стоит взять на вооружение три основных передовых подхода:
1) Начинайте процесс планирования как можно раньше, чтобы обеспечить высокий уровень качества работы в сети. Сетевые команды могут заранее предвидеть некоторые всплески трафика (например, в связи с проведением футбольных матчей), в то время как другие всплески трафика становятся неожиданными (например, в результате вирусного распространения рекламы небольшой компании на TikTok). Однако в любом случае лучше как можно раньше разработать план действий в случае возникновения высокого спроса.
Первым делом необходимо собрать команду, которая будет заниматься трансляцией мероприятия. В нее должны входить различные сотрудники, включая технических менеджеров, SRE- и бэкенд-инженеров. Каждый участник должен четко представлять себе, что входит в его обязанности, а что лучше доверить коллегам. Они должны сразу знать, к кому обратиться за помощью, если столкнутся с проблемой, с которой не смогут справиться сами.
2) Подготовьте инфраструктуру, необходимую для обеспечения устойчивости. Как громкие события могут стать мишенью для кибератак или повысить риск сбоев в работе инфраструктуры, так и компании любого размера сталкиваются с этими рисками каждый день. Необходимо создать надежную инфраструктуру, обеспечивающую резервирование и отказоустойчивость для продолжения работы в случае атаки или сбоя.
Двумя наиболее важными технологиями, обеспечивающими высокое качество обслуживания, являются сети доставки контента (CDN) и сети DNS. Различные CDN имеют свои сильные и слабые стороны, поэтому создание мульти-CDN позволяет обеспечить надежный доступ к различным видам контента из любого места. Одна CDN может быть наиболее эффективна для обеспечения покрытия в крупных мегаполисах, а другая — для сельской аудитории. Кроме того, одна CDN может лучше справляться с размещением видео и потоков, а другая — со статическими ресурсами.
Учитывая критическую роль DNS в обеспечении связи, наличие плана действий на случай перебоев в работе DNS имеет решающее значение для обеспечения устойчивости. Для этого необходимо иметь две отдельные DNS-сети, полностью автономные, чтобы в случае полного отказа первичной DNS (например, в случае DDoS-атаки) команда могла динамически переключать трафик на вторичную DNS, а не уходить в полный офлайн. Также полезно использовать технологию anycast для перенаправления трафика при частичных отключениях.
Если предполагается использовать инфраструктуру нескольких провайдеров, необходимо заблаговременно составить карту использования ресурсов. Установление минимального количества используемых ресурсов должно происходить как можно раньше, поскольку оно играет ключевую роль в определении оптимального распределения трафика.
3) Опирайтесь на глубокую аналитику и открытую коммуникацию в случае возникновения проблем. Как бы ни готовилась сетевая команда, сложности неизбежны в любой отрасли и на любом мероприятии — даже в последний день подачи документов в вуз. На редко используемом периферийном домене может внезапно появиться трафик, что, возможно, свидетельствует о DDoS-атаке. Но даже в этом случае неожиданные проблемы не должны свидетельствовать о неудаче какой-либо команды, они просто являются неизбежной реальностью.
Важнейшим компонентом борьбы с нарушениями является возможность получения глубокой аналитики на основе данных DNS, облачных и локальных серверов для выявления неверных конфигураций и потенциальных атак. Чем больше данных вы сможете извлечь из этих данных и чем быстрее вы это сделаете, тем быстрее вы сможете устранить возникшие проблемы.
Установление открытых каналов связи также закладывает основу для эффективного устранения неполадок. Запрашивая частые (возможно, ежечасные) обновления и имея возможность быстро доводить основные проблемы до тех, кто должен их решать, компании регистрируют все происходящее и могут быстро выявлять проблемы.
Каким бы сложным ни казалось управление мероприятием или приложением, сетевые команды, внедрившие эти лучшие практики, могут уверенно противостоять огромным скачкам и колебаниям трафика. Скоординированная команда точно знает, к кому обратиться с той или иной проблемой, а устойчивая архитектура и глубокая аналитика позволяют быстро реагировать на любые сбои, сохраняя при этом высокий уровень обслуживания пользователей.