Система управления инженерной инфраструктурой в МТС
На любом предприятии можно выделить процессы, значение которых для его деятельности особенно велико, а перебои чреваты большими денежными потерями, иногда даже полным крахом. Поэтому надежности инфраструктуры, обеспечивающей такие критически важные бизнес-процессы, компании стараются уделять первостепенное внимание.
Без сомнения, таких требовательных к стабильности процессов немало найдется и в хозяйстве операторов связи. Инфраструктура обеспечения этих процессов включает множество систем, комплексов, организационных мероприятий и т. п. Среди них -- система электропитания.
Кадры решают все, но…
Контроль электропитания и поддержки климата в помещениях, где размещается ИТ-оборудование московского регионального отделения МТС, был налажен хорошо, и “на самом верху” компании работу департамента, отвечающего за это направление, оценивали как надежную. Но вот то, какой ценой это достигалось, не устраивало ни руководство департамента по эксплуатации ИТ, ни его рядовой состав. По мнению Александра Ежова, руководителя группы инженерно-технического обеспечения и структурированных кабельных систем МТС, предотвращать отказы и максимально быстро ликвидировать их последствия удавалось в немалой мере за счет добросовестности и, разумеется, квалификации специалистов департамента. От персонала требовались значительные усилия, работа была связана с напряженными ответственными дежурствами, стрессовыми ночными авральными выездами, и всё это вместе недопустимо повышало влияние человеческого фактора на качество работы.
После реструктуризации компании общая ИТ-служба МТС была разделена на региональные структуры с предоставлением каждой из них полномочий, необходимых для самостоятельного исполнения должностных функций.
В московском регионе департамент МТС по эксплуатации ИТ отвечает за 43 объекта, различающихся по площадям, функциональному назначению, составу размещенного в них оборудования. Среди этих объектов есть серверные, которые располагаются в административных и промышленных зданиях; есть такие, где люди работают постоянно, а есть помещения, в которые персонал заглядывает только для профилактики и ремонта. В ряде из них установлено всего по одной стойке, а другие по площадям, насыщенности оборудованием, оснащенности относятся к ЦОДам. В одних стоит оборудование, непосредственно поддерживающее критичные для бизнеса приложения, а в других — выполняющее только вспомогательные функции для этих приложений. Все эти объекты классифицированы по отношению к критическим бизнес-процессам как объекты первого, второго и третьего уровня.
На объектах первого уровня располагается самое важное оборудование. Второй уровень объединяет менее важные объекты, к которым принадлежит и офис президента компании. К третьему уровню относятся такие объекты как, например, офисы продаж. В Москве их несколько десятков, они тоже разные по масштабам и оснащенности: где-то работают десять человек, где-то больше, где-то есть только кассовые аппараты, а где-то — серверные с активным ИТ-оборудованием.
Поднять эффективность департамента по эксплуатации ИТ
Как нетрудно заметить, департамент по эксплуатации ИТ обслуживает большие территории, оборудования много, контролировать его и оперативно определять места и причины отказов (до внедрения системы управления инженерной ИТ-инфраструктурой) было непросто, тем более организовывать меры предупреждения отказов. По оценкам руководителей департамента по эксплуатации ИТ компании МТС, для повышения эффективности этих работ недоставало средств контроля общего состояния ИТ-инфраструктуры и оперативной локализации мест сбоев. Они пришли к мнению, что для повышения качества контроля за ответственными системами и их управляемости нужны новые эффективные средства, с помощью которых можно будет вести мониторинг состояния систем электропитания и окружающей среды с необходимым уровнем сервиса для персонала. Поэтому было принято решение внедрить систему контроля инженерного оборудования серверных помещений, способную объединить управление электроснабжением, климатом и средствами пожаротушения.
Инициатором, постановщиком задач и разработчиком техзадания проекта по внедрению такой системы выступил Александр Ежов. Из личного опыта и из результатов работы специалистов своей группы он заключил, что от внедряемого решения в первую очередь требовалась достоверная информация о состоянии инженерных систем с должной степенью детализации, максимальная интеграция нового оборудования с существующим (ведь система развертывалась не на пустом месте), возможность централизованного дистанционного управления системами электрораспределения и климатическим оборудованием.
Работы по построению системы мониторинга выполняла компания 1-Network Technologies — сначала в рамках проекта по построению серверных, СКС и системы электроснабжения в одном из главных в Москве зданий МТС на Большой Семеновской (где располагается контакт-центр компании), а затем и в других офисах. “Интегратор выполнил закупки, установил оборудование, а настройку системы мы провели сами”, — пояснил Александр Ежов.
По мнению Карена Карапетяна, директора компании 1-Network Technologies, с которым согласились уполномоченные представители МТС, из рассмотренных вариантов требованиям заказчика наиболее полно отвечали система мониторинга физических угроз и внешней среды APC NetBotz и платформа для развертывания и интеграции средств автоматизированного управления инженерной ИТ-инфраструктурой InfraStruXure Central того же производителя.
APC NetBotz представляет собой семейство сетевых устройств, предназначенных для оперативного уведомления пользователей о выявленных внешних факторах, которые несут в себе угрозу эксплуатационной готовности инженерной инфраструктуры. Эти устройства подключаются к IP-сети, отслеживают фиксируемые видеокамерами и разнообразными датчиками события и параметры окружающей среды, включая температуру, влажность, задымленность, движение воздуха, уровень шума, открывание дверей и т. д. Реакция комплекса NetBotz на собираемые им данные задается пользователем. Это может быть передача тревожных сообщений по электронной почте и через SMS на заданные адреса и пр. Система видеонаблюдения программируется на включение записи при фиксации движения в зоне контроля, превышении допустимых показателей датчиков температуры, влажности и т. п. В настройках видеозаписи имеется регулировка чувствительности реакции, маскирование зон, планирование временного режима работы. К устройствам видеонаблюдения можно подключать датчики других производителей и контролировать их работу.
Развертывание новой системы
Проект был реализован в прошлом году за шесть месяцев. С учетом количества объектов, на которых устанавливалось оборудование системы, их территориальной разнесенности и малых затрат трудовых ресурсов (в проекте участвовали всего три специалиста со стороны заказчика и два со стороны интегратора) в МТС этот срок оценен как хороший.
Как сообщил Алексей Коняев, менеджер по работе с корпоративными заказчиками APC, заказчику были поставлены и установлены на московских объектах МТС аппаратные компоненты NetBotz Central, InfraStruXure Central, NetBotz-400, NetBotz-500, APC PDU-7922, APC PDU-7553, APC Redundant Switches и программное обеспечение NetBotz Central v 2.4, InfraStruXure Central v 3.0.1., APC Power Analyser Manager версии 4.6.1.
По оценкам Александра Ежова, инфраструктура серверных помещений компании с внедрением новой системы стала работать гораздо надежнее, нежели прежде: благодаря расширенным возможностям дистанционного мониторинга климатических параметров окружающей среды и видеонаблюдению теперь она защищена от возможных факторов риска и связанных с ними простоев оборудования. Внедренные решения APC позволяют своевременно выявлять и корректировать отклонения в электроснабжении и поддержке климатических условий, прежде чем они могут привести к серьезным сбоям оборудования, обслуживающего критически важные для МТС бизнес-процессы.
“Система управления инженерной ИТ-инфраструктурой упростила работу диспетчеров, снизила нагрузку на них во время дежурств, уменьшила риски, связанные с человеческим фактором, — сказал Александр Ежов. — В случае выхода показаний датчиков из заданного диапазона сигнал тревоги и самые последние данные с них по разным каналам связи передаются всем ответственным лицам, прежде всего на рабочее место дежурного, извещая о необходимости принять конкретные меры в конкретном месте: устранить причину тревоги силами дежурного или вызвать команду поддержки…”
Новая система также позволяет собирать информацию, необходимую для принятия мер предупреждения отказов оборудования. Если прежде, например, оператор получал с датчиков информацию о повышении температуры в одной из серверных с 18 до 21 градуса, то у него не было повода беспокоиться — такое изменение допустимо по условиям эксплуатации серверных помещений. Сегодня система в подобной ситуации поможет отследить формирование локальных зон перегрева, возникающих из-за нарушения правильного тока воздуха, т. е. выявить неполадки и сигнализировать оператору, что причиной такого повышения стал, например, нештатный перегрев в конкретной зоне, способный привести к отключению расположенных в ней устройств.
Для автоматического отключения достаточно десяти минут пребывания оборудования в перегретом состоянии. Именно столько времени отпущено дежурному оператору, чтобы включить резервный кондиционер, открыть закрытую кем-то по оплошности (кто и когда это сделал, будет установлено позднее при разбирательстве инцидента с использованием видеозаписей) заслонку воздуходува, включить сработавший от кратковременной перегрузки автомат защиты… Теперь, как говорят специалисты инженерно-технического обеспечения, это можно выполнить за те самые считанные минуты.
Система помогает в работе и смежным службам. Так, если случается отказ сетевого оборудования, она позволяет быстро отсечь проблемы с питанием и сосредоточиться именно на проблемном участке в хозяйстве оператора. Локализовать причины отказов стало намного проще и быстрее, нежели ранее.
Возможность контроля общей картины состояния комплекса тоже резко повысила оперативность реакции на отказы. “Например, — говорит Александр Ежов, — если в упомянутом семиэтажном здании на Большой Семеновской (где одиннадцать серверных помещений и две тысячи сотрудников) вдруг кто-либо из персонала перестает видеть сеть, оператор начинает именно с анализа общей ситуации. Допустим, общий экран системы показал, что отключились сразу несколько серверных, запитанных от одного и того же фидера в здании. Циклически опрашиваемые интеллектуальные ПДУ, которые управляются через Ethernet по протоколу SNMP, сразу просигнализируют о такой ситуации. Понятно, чтó делать дальше: переходить на запасные варианты энергообеспечения, подключать городские службы к ремонту фидера”.
Даже если в каком-то районе города произойдет веерное отключение электричества, с помощью новой системы оператор сумеет установить это по косвенным данным. Причем ему не нужно будет ломать голову, что произошло с каждым из размещенных в пострадавшем районе объектов по отдельности, — система покажет общую для данной территории проблему; отпадет необходимость отправлять дежурную команду компании, поскольку такой проблемой будут заниматься городские службы.
Может показаться, что видеонаблюдение в столь насыщенной всевозможными датчиками системе избыточно. Однако по мнению Александра Ежова, для контроля распределенных по всему городу объектов, особенно в ночное время, этот сервис в составе такой системы очень полезен. Видеонаблюдение позволяет проследить, что происходит внутри контролируемых объемов — в помещениях, в отдельных шкафах -- в текущий момент, или обратиться к архиву видеозаписей. В ее журналах регистрируется, хранится и в любое время доступна для анализа информация о том, кто, когда и что делал с тем или иным контролируемым оборудованием. Кстати, поддержка видеонаблюдения была одним из основных требований при выборе системы, и ее отсутствие (на момент принятия решения) у вендора Rittal стало одним из аргументов не в его пользу.
Контроль электропотребления также помогает планировать размещение нового ИТ-оборудования. Например, прежде чем установить новый сервер, специалист дистанционно с помощью системы может определить, есть ли в подходящей стойке необходимый резерв по питанию.
Нужно сказать, что наряду с оборудованием APC рассматривались и другие варианты, в том числе и решения Andover. Но в правильности сделанного выбора сотрудники МТС убедились окончательно в ходе эксплуатации новой системы. Вначале было большое желание установить в каждой серверной автоматизированные системы диспетчерского управления (АСДУ) — привлекала гибкость их настроек. Но оценки трудоемкости программирования входящих в эти АСДУ контроллеров показали, что с учетом квалификации имеющегося персонала выполнить эти работы будет затруднительно.
По оценкам Александра Ежова, вариант APC отличается более высоким интеллектом оборудования, не требует специальной подготовки персонала при наладке и эксплуатации, поскольку с точки зрения сетевого подключения решение этого производителя построено из стандартных IP-устройств. К тому же предлагаемый APC функционал закрывал все требования МТС. “Каждый рабочий день убеждаюсь, — сказал он, — что интеллектуальные ПДУ APC — очень удачное звено в нашей системе”.
С самого начала проекта с вендором была установлена эффективная двусторонняя связь. Например, в МТС очень хотели наладить генерацию голосовых сообщений в серверных помещениях через имеющееся там оборудование APC. Это возможно при незначительных доработках, но разбираться самостоятельно с тем, как именно реализовать этот функционал, у МТС не было времени. Поэтому в офисе APC была устроена специальная презентация, в ходе которой сотрудникам МТС рассказали о полезных для заказчика дополнительных возможностях оборудования и о способах их реализации.
Со своей стороны, инженеры МТС делятся в APC накопленным опытом работы с оборудованием этой компании. “После высказанных нами рекомендаций компания APC начала комплектовать свои решения широкоугольными видеокамерами, хотя раньше этого не делала, и заказчикам их приходилось покупать отдельно”, — заметил Александр Ежов.
“В результате реализации данного проекта мы получили эффективную, гибкую, точную систему контроля и централизованного управления инфраструктурой серверных помещений с простой и быстрой настройкой”, — заключил он.
Развитие системы
Система продолжает развиваться “вширь и вглубь”: поступает новое оборудование, которое устанавливается на еще не охваченных системой объектах второго и третьего уровня. Для резервирования контроля особо критичного оборудования задействован второй, территориально отдаленный сервер системы; закуплен и развертывается сервер Power Manager, с установкой которого стало более гибким управление устройствами электрораспределения: появилась возможность объединять их в группы и обращаться к ним не напрямую через конкретные, вводимые вручную IP-адреса, а через графический интерфейс менеджера.
По оценкам специалистов МТС, затраты, составившие около 300 тыс. долл., являются малой частью выигрыша, полученного благодаря достигнутому снижению финансовых рисков компании за счет прогнозирования и предотвращения критичных ситуаций, а также за счет оперативности устранения сбоев.