27 августа была восстановлена работа системы управления полетами FAA, которая днем раньше вышла из строя примерно на два с половиной часа, нарушив планы тысяч пассажиров более чем в сорока аэропортах США. Но сотрудники ИТ-подразделения из Хэмптона, где находится основной датацентр агентства, еще долго продолжали устранять неисправности.
Сколько она еще сможет проработать? Устаревшая система FAA состоит из двух мэйнфреймов, которым без малого лет (интересно отметить, что компания, создавшая эти мэйнфреймы специально для FAA, ушла с рынка тоже около двадцати лет назад). Основной компьютер находится в штате Джорджия, резервный — в штате Юта. Они явно трудятся из последних сил, дожидаясь подкрепления, которое должно подоспеть зимой в виде новой современной системы.
Авария
“Вот что случилось вчера в 1 час 25 минут по восточному поясному времени. В ходе обычной ежедневной загрузки ПО был поврежден какой-то файл, и это вывело из строя систему, установленную в Атланте, — сообщил мне представитель FAA Пол Такемото. — Фактически все заложенные в систему планы полетов стали недоступны. У самолетов, уже находившихся в воздухе или готовившихся к взлету, проблем не возникло. Но остальные рейсы пришлось задержать”.
Ситуация еще больше осложнилась, когда все операции были переведены на резервный мэйнфрейм в Солт-Лейк-Сити, который способен работать с нагрузкой в 125% от номинальной, сказал Такемото: “Нагрузка же оказалась гораздо выше, поскольку авиаперевозчики вручную вводили в систему свои планы полетов заново. Оттого, что они постоянно использовали кнопку “Ввод”, немедленно выстроились гигантские очереди ожидающих обслуживания данных. Но что еще хуже, происходило это как раз в тот период, когда трафик достиг пикового значения. Компьютер в Солт-Лейк-Сити просто не поспевал”.
Это было уникальное стечение неблагоприятных обстоятельств. В самое напряженное время суток в систему загружалась сразу масса планов полетов, а старая информационная система работала со скрипом. Всё вместе парализовало аэропорты, пояснил Такемото.
В дальнейшем FAA распорядилась, чтобы авиаперевозчики некоторое время не вводили в систему планы полетов. В результате многие пассажиры застряли у терминалов. По словам Такемото, примерно к четырём часам дня дело пошло на лад, и система ожила.
Устаревшая система
Система называется National Aerospace Data Interchange Network (NADIN, “Национальная сеть обмена данными об аэрокосмическом пространстве”). В начале 80-х годов прошлого века ее спроектировала для FAA компания North American Philips. Два мэйнфрейма Philips DS714/81 вступили в строй в январе 1988-го. А к концу года компания прекратила заниматься этим видом бизнеса, и FAA выкупила у нее весь склад запасных частей.
Надо отдать должное этой системе. На протяжении очень длительного времени, фактически, начиная с последнего года пребывания у власти президента Рейгана, она работала 24 часа в сутки 7 дней в неделю. Но теперь пришла пора ее заменить. Недавняя авария наглядно это продемонстрировала.
Такемото сообщил, что к концу 2008 г. система будет полностью заменена на новую, вполне современную. Появится новое оборудование, новое программное обеспечение – в общем, всё будет новым. “Объем памяти будет на порядок выше, чем сейчас, — сказал он. — Система сможет справляться с резким увеличением нагрузки вроде того, что мы наблюдали вчера”.
Кенни Ван-Зант, отвечающий за стратегию развития продуктов в компании SolarWinds, которая выпускает ПО сетевого управления, считает, что в большинстве случаев выход сетей из строя не связан с поврежденными файлами.
“Если вы проанализируете глубинные причины большинства аварий в сетях, то увидите, что более чем в 70% случаев они вызваны ошибками персонала при настройке, — пояснил он. — С выходом компьютеров из строя приходится сталкиваться гораздо реже, чем с просчетами обслуживающих сотрудников. Не застрахованы от ошибок и специалисты по сетям, какими бы грамотными они ни были”.
Подробности относительно проприетарной конфигурации программного обеспечения сети FAA не сообщаются.
Инструменты для мониторинга и выявления неисправностей в сетях
У компании SolarWinds появился новый продукт под названием Orion NCM (Network Configuration Manager) v5, наделяющий ее прежний менеджер конфигурации Cirrus Configuration Manager новыми возможностями. Через пользовательский веб-интерфейс, работающий в том числе на карманных устройствах, сотовых телефонах и ноутбуках, Orion предупреждает менеджеров об изменениях в структуре сети, что позволяет быстро устранять неисправности.
Джим Беттенберг, директор по маркетингу продуктов из компании Neverfail, выпускающей ПО для восстановления после катастроф, сообщил мне, что это программное обеспечение в асинхронном режиме производит репликацию всех данных в обеих информационных системах и осуществляет мониторинг сети 24 часа в сутки 7 дней в неделю.
“Это позволяет нам выявлять выход из строя сети или сервера, возникновение проблем с другим оборудованием, появление слишком высокой нагрузки на процессоры и т. д., — сказал Беттенберг. — Мы следим за всем происходящим в системе. Если появляется проблема, мы можем что-то исправить самостоятельно или переключиться на запасную систему. Причём делается это автоматически”.