ЭПИЦЕНТРЫ

 

    

Прах (или часть его) киноактера Джеймса Духана будет скоро выведен на околоземную орбиту. Поэтому нельзя даже представить себе, чтобы покойный перевернулся в гробу. Тем не менее мне неприятно вообразить реакцию на недавние события, которой можно было бы ожидать от одного из героев, сыгранных этим ветераном кино. В реальной жизни Духан участвовал в высадке союзников в Нормандии во время второй мировой войны. Но больше всего он запомнился в роли техника Монтгомери Скотта на космическом корабле из сериала Star Trek, не сходившего с экрана три десятка лет.

Кудесник Скотти, главный инженер космического корабля "Энтерпрайс", безусловно, нашел бы, что сказать, увидев инженеров НАСА, которые мучаются вопросом, можно ли без опасений удалить растрепавшиеся части обшивки космического челнока "Дискавери". Могу себе представить, как он гневно вопрошает: "Если вы боитесь исправить эту чертову штуку, то зачем вы на ней летаете?".

Я задаю такой же вопрос каждому, кто доверяет решение жизненно важных задач информационным системам масштаба предприятия (enterprise - прошу прощения за ассоциацию с названием космического корабля).

Собственно, я задаю пять вопросов. Откуда вы знаете, что это работает? Как может произойти сбой? Что может случиться, если он произойдет? Что вы сделаете для уменьшения ущерба, устраняя сбой? Как вы его устраните, не затрагивая другие компоненты? Системные операторы должны отвечать на эти вопросы почти сразу же. Желательно после того, как сверятся с тщательно проиндексированными, регулярно обновляемыми планами. Им не следует полагаться на экспертов и их способность импровизировать.

Откуда вы знаете, что система работает? Так и подмывает сказать, что пока она пересылает пакеты или обслуживает веб-страницы, она работает. Но это все равно, что наблюдать за поступлением топлива в двигатели космического челнока и не обращать внимания на то, куда он движется. Необходимую уверенность дадут вам такие продукты, как RealiTea компании TeaLeaf Technology или Vantage компании Compuware. Оба этих аналитических средства измеряют время отклика в ходе сеанса связи с клиентом и процент выполнения задач, а также оценивают влияние возникающих проблем на бизнес компании. Они заменяют относящийся к более низкому уровню контроль за функционированием аппаратуры.

Как может произойти сбой? На этот вопрос можно дать гораздо больше ответов, чем принято считать. Ведь теперь любое нетривиальное приложение использует несколько слабо связанных процессов, которые принадлежат разным программам и управляются ими. Необходимо сквозное, от начала до конца, тестирование с помощью инструментов вроде SilkPerformer компании Segue Software, Business Process Testing производства Mercury Interactive или Extreme Test компании Embarcadero Technologies.

***

 Восстановление после сбоев следует рассматривать не как кризисное управление, а как простейший случай апгрейда системы.

***

На чем отразится сбой и каковы должны быть приемлемые процедуры восстановления после него? Здесь действует такая заповедь: снижайте свою активность постепенно. Нельзя даже на несколько минут полностью уйти со сцены. Кто знает, сколько людей сочтут вас ненадежным партнером и больше никогда даже не посмотрят в вашу сторону? Потратьте некоторые усилия на создание инфраструктуры, позволяющей избежать потери данных. Предоставляйте базовую информацию даже в том случае, если двусторонние сервисы не работают. Собирайте контактную информацию, чтобы в последующем связаться с клиентом, с которым вы не смогли завершить транзакцию из-за временных трудностей.

Восстановление после сбоев не следует рассматривать как кризисное управление. Это скорее простейший случай совершенствования системы - тот, при котором она в действительности не наделяется новыми возможностями. Почему полезно взглянуть на дело с такой точки зрения? Потому что это позволяет избежать поиска виноватых и превращает проблему из политической в инженерную.

К проведению апгрейда системы без нарушения текущих операций вы должны подготовиться. Тщательно выявите существующие в ней взаимосвязи. Определите и задокументируйте интерфейсы. Постоянно обновляйте информацию о лицензиях и управлении ими, другие необходимые администратору сведения. В таком случае просто реанимировать систему будет не сложнее, чем изменить ее функции или добавить новые.

При всем уважении к истории Скотти я помню и китайскую легенду о трех братьях. Все они были врачами. Наиболее выдающийся из них лечил больных и стал личным доктором императора. Но он уважал своих братьев и считался с их мнением, хотя они и пользовались гораздо меньшей известностью. Потому что они лучше него умели предотвращать болезни.

Кудесники вроде Скотти могут украсить телесериал. Но в реальной жизни я предпочел бы иметь дело с профессионалом, для которого восстановление после сбоя является рутинной задачей.

     С редактором по вопросам технологий Питером Коффи можно связаться по адресу: peter_coffee@ziffdavis.com.