Службы технической поддержки играют весьма заметную роль в жизни любой корпоративной информационной системы. Каждый сотрудник, имеющий компьютер, знает и системных администраторов, и обслуживающих инженеров. Однако скромные “работники тыла” и та важная работа, которую они выполняют, как-то не привлекают к себе заметного внимания менеджеров. Тем не менее это вовсе не означает, что здесь все просто и ясно. В предлагаемой ниже беседе обозревателя PC Week/RE Леонида Черняка с руководителем сервисного центра компании Jet Infosystems Максимом Папиным делается попытка представить основные проблемы, связанные с обслуживанием информационных систем.
PC Week: Максим, вы накопили изрядный опыт обслуживания информационных систем, будучи в течение ряда лет руководителем сервисного центра компании Jet Infosystems. Поэтому хотелось бы узнать, что вы думаете о роли сервисной службы в целом и особенностях ее работы.
Максим Папин: Уже сформировалось некоторое общее профессиональное представление о возможных подходах к организации обслуживания информационных систем и существующих в этом деле “подводных камнях”. Но прежде чем говорить о специфических проблемах, стоит отметить, что очень часто роль эксплуатационной службы в корпоративных информационных системах недооценивается. Показательно в этом отношении, например, сравнение компьютерной прессы с автомобильной; очевидно, что последняя уделяет вопросам сервиса гораздо больше внимания. В связи с этим позволю себе своего рода введение, не вдаваясь в детали.
Информационная система подобна живому организму: она рождается, растет, вступает в этап зрелости и, увы, рано или поздно заканчивает свое существование. Можно выделить шесть фаз ее развития:
- базовая инсталляция оборудования и ПО;
- “тонкая” настройка под задачи эксплуатации;
- “пилотная” эксплуатация;
- перенос задач эксплуатации на информационную систему;
- эксплуатация информационной системы;
- завершение эксплуатации, демонтаж системы.
Конкретные формы обслуживания должны соответствовать этим фазам жизненного цикла.
PC Week: В чем же специфика обслуживания на каждом из этапов?
М. П.: Очевидно, что наиболее ответственным этапом жизни информационной системы является период ее эксплуатации. Именно в это время потребность такой системы в техническом обслуживании наиболее высока. Однако нельзя забывать и об остальных этапах. Коротко расскажем о каждом из них.
Вначале производится подключение оборудования, в том числе интеграция его в уже существующую информационную систему, инсталляция программного обеспечения, базовая настройка и проверка работоспособности компонентов устанавливаемой системы. Работы по техническому обслуживанию здесь вполне очевидны.
Потребности информационной системы в обслуживании на разных этапах ее жизненного цикла
Второй этап (“тонкая” настройка) - конфигурирование оборудования и ПО. По его окончании параметры системы должны быть в первом приближении адаптированы к исполнению планируемых задач (например, для межсетевых экранов - это настройка доступности сервисов в соответствии с политикой информационной безопасности, для СУБД - это может быть определение табличного пространства под базы данных и настройка под специфику хранимой и обрабатываемой информации и т. п.).
На третьем этапе “пилотной” эксплуатации главным является тестирование на задачах, максимально приближенных к реальным; таким образом имитируется эксплуатация системы. Здесь выявляются и устраняются недостатки в ее конфигурации, проверяется надежность, производится окончательная донастройка.
На первых трех этапах характер обслуживания определяется необходимостью проверить работоспособность оборудования, правильно его сконфигурировать в соответствии с производственной задачей и проверить эксплуатационные качества системы в целом. Критичность к простою пока еще, как правило, низкая, так как реальные задачи еще не исполняются.
Четвертый этап - перенос практических задач на новую информационную систему и ввод ее в эксплуатацию - можно отнести к самым критичным моментам в жизни системы; здесь впервые на нее ложится ответственность за исполнение реального набора задач. Вероятность возникновения аварийных ситуаций исключить нельзя, а они могут, например, повлечь за собой потерю используемых данных. Поэтому обязательным условием выполнения этого этапа является наличие плана возврата в исходное состояние в случае возникновения аварийной ситуации.
Наконец, пятый, важнейший этап - эксплуатация информационной системы. Действия обслуживающего персонала в процессе эксплуатации можно разделить на две категории. Первая - это рутинные или плановые работы, включающие штатные действия по обслуживанию информационной системы и обеспечению потребностей ее пользователей (регистрация новых пользователей, выделение дискового пространства, анализ системных сообщений, резервирование информации, интеграция в систему нового оборудования и ее плановая реконфигурация). Однако на этапе эксплуатации с неизбежностью возникают и аварийные, или нештатные ситуации, которые требуют действий другого рода - быстрой и эффективной реакции обслуживающего персонала по восстановлению работоспособности системы. Ее аварийный простой всегда связан с прямыми и косвенными финансовыми потерями.
Последний этап - завершение эксплуатации, демонтаж системы - в особых комментариях, видимо, не нуждается.
PC Week: Из приведенной вами классификации этапов жизни информационной системы, да и просто исходя из здравого смысла, следует, что наиболее критическими моментами в ее эксплуатации являются возникающие аварийные ситуации. Не могли бы вы оценить уровень материальных потерь в этих случаях? И что можно сказать о целесообразности инвестиций в техническое обслуживание информационных систем?
М. П.: По статистике американской компании Infanetics, среднее время простоя информационной системы большого масштаба может составлять до 6% времени ее работы. Данные по 100 ведущим американским компаниям свидетельствуют, что среднее количество остановок - 24 за год при средней продолжительности остановки около 5 ч. Как видим, общее время простоя составляет 120 ч в год.
Попробуем теперь оценить, во что это обходится. Допустим, что стоимость часа простоя информационной системы равна часовому обороту компании. Если годовой оборот компании составляет 100 млн. долл., то при 120 ч простоя потери за год могут составить около 1,5 млн. долл. Эта величина вполне сопоставима со стоимостью самой информационной системы компании такого масштаба.
Кроме прямых потерь есть еще и косвенные. Страдает, например, имидж компании. Оценить такие потери трудно, однако некоторые методики расчета все же существуют.
Так, для оценки косвенных потерь в одной из статей (LAN Times, “Special Report/Fault Tolerance”, January 1990) предлагалось умножать объем годового оборота на количество дней простоя информационной системы и на эмпирический коэффициент 0,001. Хотя эта формула не учитывает таких необычных факторов, как, например, риск для жизни, когда речь идет, скажем, о сети, установленной в больнице, однако она позволяет ориентировочно определить сумму косвенных потерь от вынужденных простоев. Эти потери для компании с годовым оборотом 100 млн. долл. составят по такой методике около 500 тыс. долл. в год.
Для сокращения потерь, вызванных простоями, существует несколько путей: применение более надежного оборудования, оперативное выполнение восстановительных работ, регулярная профилактика информационной системы. Техническое обслуживание ее можно рассматривать поэтому как эффективное вложение средств, позволяющее избежать значительных финансовых потерь.
Еще один источник сокращения явных и скрытых потерь благодаря техническому обслуживанию информационной системы - оптимизация ее ресурсов. На этапе эксплуатации информационной системы часто возникают ситуации, когда ресурсов системы, необходимых для исполнения поставленных перед ней задач, становится недостаточно. Происходит это в случаях:
- увеличения объемов исполняемых задач;
- модификации прикладной части;
- увеличения объемов хранимой системой информации.
Дефицит ресурсов выражается в замедлении исполнения задач, повышенной частоте сбоев информационной системы (например, из-за нехватки дискового пространства для хранимых данных), повышенной загруженности сети. При этом не всегда оправдывает себя очевидное как будто решение (зачастую дорогостоящее) - приобрести для расширения возможностей системы новое оборудование или комплектующие.
Это происходит в тех случаях, когда у информационной системы еще есть резерв производительности, который, однако, не может быть использован из-за неоптимальных настроек. Бывает и так, что система перегружена в результате нецелевого использования или наличия информационного “мусора” на дисках; в этом случае повышение производительности также можно обеспечить без затрат на приобретение нового оборудования, повысив эффективность действий обслуживающего персонала.
Таким образом, наличие квалифицированного технического обслуживания на этапе эксплуатации информационной системы является необходимым условием для исполнения поставленных перед ней задач, причем ошибки обслуживающего персонала могут приводить к явным или скрытым финансовым потерям, сопоставимым со стоимостью самой информационной системы.
PC Week: Максим, после всего вами сказанного проникаешься глубоким уважением к службе сервиса и осознаешь ее значимость. Остается совсем малое - понять, как ее оптимально организовать.
М. П.: Рациональное решение проблемы обслуживания в конечном счете сводится к выполнению двух задач. Первая - научиться действовать как в рутинных, так и в аварийных ситуациях, вторая - правильно организовать работу, поняв, что следует делать силами собственного штата, а что целесообразно передать специализированным сервисным центрам.
Достоинства и недостатки сервисных организаций различных типов
Попробуем описать предварительные действия при подготовке к организации технического обслуживания информационной системы.
1. Выделить наиболее ответственные узлы системы и определить для них критичность простоя. Например, для центрального сервера масштаба предприятия допустимое время простоя без ущерба для бизнес-процесса составляет один час, а для сервера разработчиков может составлять даже сутки. Такой подход позволяет дифференцировать требования к различным узлам информационной системы, выделить наиболее критичные точки отказа и оптимизировать распределение ресурсов на техническое обслуживание.
2. Составить описание задач технического обслуживания и произвести деление задач на внутренние, т. е. исполняемые силами обслуживающего подразделения, и внешние, исполнение которых будет передано специализированным сервисным организациям. На этом этапе производится, таким образом, определение круга исполняемых задач и разделение ответственности.
3. Провести анализ имеющихся внутренних и внешних ресурсов, необходимых для организации технического обслуживания в рамках описанных задач и разделения компетенции. Наличие или отсутствие гарантии на оборудование, состояние ремонтного фонда, квалификация персонала, на который возложено исполнение планируемых задач обслуживания, положение с финансированием - вот важнейшие условия успешной организации технического обслуживания и, как следствие, надежности работы оборудования и прикладного программного обеспечения.
4. Подготовить план организации технического обслуживания, в котором определить этапы исполняемых действий, сроки их исполнения, затраты на этапах, ответственность исполнителей. Наличие плана позволяет руководителю обслуживающего информационную систему подразделения оценить достаточность и целостность исполняемых работ, избежать ошибок и неоправданных задержек в реализации поставленных задач по организации качественного технического обслуживания. Как результат - эта работа поддается контролю исполнения, что обеспечивает достижение поставленных целей в установленные сроки. При обосновании затрат на организацию технического обслуживания необходимо произвести примерную оценку прямых и косвенных потерь от неисполнения этой работы и сравнить их с предусматриваемыми затратами, с тем чтобы иметь аргументы для выделения ресурсов на организацию обслуживания.
PC Week: Какие же вопросы являются наиболее важными при организации технического обслуживания?
М. П.: Многие приведенные ниже требования могут показаться тривиальными, однако в них воплощен значительный опыт профессионалов и соблюдение их совершенно необходимо. Вот они.
1. Штатное расписание, структура подразделения, обслуживающего информационную систему, и область его компетенции должны соответствовать его предполагаемым задачам. Нечеткая постановка этих задач содержит в себе потенциальную проблему - она может стать заметным тормозом в критических ситуациях, если распределение функций обслуживающего персонала подразделения четко не определено. При этом вполне может возникнуть ситуация, когда несколько специалистов занимаются одной, не самой важной задачей, в то время как никем не исполняются иные, важные для работоспособности информационной системы работы.
2. Обязательным является наличие в подразделении регламентов и правил обслуживания. При организации его работы необходимо обеспечить строгое соблюдение регламентов исполнения как рутинных операций, так и аварийных действий. Принятие некоторых относительно малозатратных организационных мер (например, внедрение практики ведения системного журнала администратором сервера) и определение правил работы обслуживающего персонала способствуют реальному сокращению количества сбоев информационной системы.
Все сбои можно разделить на те, которые возникают из-за дефектов оборудования, и те, которые списываются на “иные причины”. Последние чаще всего являются следствием ошибок обслуживающего персонала и отсутствия правил обслуживания. Среди “иных причин” очень частое явление - несогласованные или несанкционированные действия технического персонала по отношению к оборудованию и ПО, имеющие порой весьма тяжелые последствия. Хаотичные (и вовремя не пресеченные) модификации и вмешательства в работу системы заканчиваются, как правило, потерей функциональности и остановкой исполнения задач.
Соотношение сбоев между этими двумя источниками - один к одному. Вот вам значительный ресурс сокращения потерь - нужно просто жить по правилам.
Заметим, что сформулированные правила работы уменьшают и зависимость организации от ключевых специалистов. Кому незнакома ситуация, когда в случае, если такого специалиста нет на рабочем месте, отсутствие писаных правил вызывает чуть ли не паралич обслуживающего подразделения.
3. Необходимо наличие резерва для замены вышедшего из строя оборудования. Даже высококвалифицированный специалист будет бессилен восстановить его работоспособность, если у него нет возможности использовать в работе запасной исправный элемент. Отсутствие резерва может остановить информационную систему надолго, особенно если необходимой замены нет на складе продавца и требуется значительное время для доставки его к аварийной системе.
Во избежание подобных ситуаций следует либо резервировать элементы системы, либо формировать собственный ремонтный фонд, учитывая требования к возможному времени простоя информационной системы, либо оплачивать создание ремонтного фонда на складе специализированной сервисной организации. Игнорировать вопрос создания резерва оборудования и комплектующих, необходимых для решения аварийных задач, представляется рискованным для обеспечения надежной эксплуатации информационной системы.
4. Еще одно обязательное требование - наличие диагностического оборудования и средств контроля за состоянием системы. Средства диагностики и необходимые для получения информации о состоянии системы инструментарий и программное обеспечение создают условия для качественного обслуживания. Они позволяют сократить время на локализацию специалистом возникшей неисправности в информационной системе и на принятие правильного решения по устранению причины аварийного сбоя. В ряде случаев средства контроля, диагностики и мониторинга состояния системы предоставляют техническому администратору информацию о потенциальных проблемах, что дает возможность избежать простоев и других неприятных ситуаций при исполнении задач эксплуатации.
5. И наконец, особо следует выделить очень важную проблему соответствия квалификации технического персонала задачам обслуживания.
Обеспечение качественного технического обслуживания информационной системы требует привлечения специалистов высокой квалификации, которые в состоянии решать не только каждодневные рутинные задачи (администрировать информационную систему), но и быстро восстанавливать работоспособность информационной системы при сбоях. Подготовить технического специалиста к исполнению административных действий относительно просто, такие работы хорошо формализуются и поддаются описаниям в регламентах. Сложнее обстоит дело с подготовкой персонала обслуживающего подразделения к решению неожиданных аварийных задач, ввиду их многообразия и слабой формализуемости. Информационная система подавляющую часть времени находится в работоспособном состоянии, и, как следствие, навыки и умения в работе по локализации и устранению сбоев системы у персонала не формируются.
Действительно, сотрудники обслуживающего подразделения в основном заняты исполнением обычных плановых работ (управление ресурсами системы, штатные модификации, резервное копирование информации и т. п.). Поэтому, если раз в полгода или год случается серьезная авария, проблема локализации нетривиальной неисправности и эффективного ее устранения может оказаться настоящей головной болью даже для первоклассного специалиста-администратора. И это понятно, так как его специализация фоку-сируется не на устранении аварийных ситуаций, а на технической поддержке штатных режимов эксплуатации.
PC Week: Получается замкнутый круг - вы организуете такую поддержку информационной системы, которая позволяет минимизировать количество сбоев, но при малом количестве сбоев персонал теряет необходимую квалификацию по диагностике и устранению аварий, что, в свою очередь, снижает надежность эксплуатации системы.
М. П.: Да, это так. И в связи с этим возможно несколько альтернативных решений:
- регулярно проводить с персоналом плановые учения по нештатным ситуациям на стенде;
- построить программу обучения с учетом требований по квалифицированной диагностике неисправностей;
- предусмотреть решение нештатных задач специализированными сервисными организациями.
Каждый из этих вариантов имеет свои положительные и отрицательные стороны.
Проведение учений на стенде требует наличия зачастую весьма дорогостоящего оборудования и программного обеспечения, отвлечения ресурсов обслуживающего подразделения на время тренировок, участия квалифицированного инструктора, который может правильно смоделировать сбой и гарантировать, что такая подготовка охватывает действительно реальные ситуации.
Организация обучения специалистов по разнообразным вопросам диагностики неисправностей - менее затратный, но часто и менее эффективный вариант, поскольку теория без практики работы не дает возможности закрепить полученные знания. Кроме того, любая форма обучения в отрыве от специфики “своей” информационной системы является академическим изложением материала, иногда мало пригодного для практического использования. В теоретической подготовке авторизованные производителями оборудования и программного обеспечения учебные центры не затрагивают вопросы решения “пограничных” проблем, возникающих при взаимодействии оборудования или прикладной части, произведенных различными компаниями. Навык решения таких вопросов достигается только при практической работе.
Наконец, привлечение специализированных сервисных организаций к решению нештатных задач технического обслуживания для достижения хороших результатов требует ответственной работы по обоснованному выбору.
PC Week: Максим, хотите вы того или нет, но вы занимаете позицию представителя профессионального сервисного центра, считая, что рутинные действия должны выполняться собственными сервисными службами, а действия в аварийных ситуациях - внешними организациями. Проблема привлечения для сервиса специалистов со стороны вовсе не специфична для информационных систем, мы сталкиваемся с ней повседневно. Лампочку дома я вверну сам, а вот ремонт сложной техники поручу профессионалам. Но как правильно выбрать сервисную службу?
М. П.: Отношение к внешним сервисным организациям, к передаче, или, как теперь принято говорить, аутсорсингу сервисных функций стремительно меняется, причем особенно высока динамика этого процесса последние несколько лет. Помните, ведь еще совсем недавно было принято иметь полный штат сервисного персонала, набор необходимых запасных частей и решать все проблемы “не выходя из дома”.
Архитектура, состав и функции корпоративных информационных систем постоянно усложняются, и именно это становится главным фактором, влияющим на изменение отношения к сервису.
Первое следствие усложнения систем заключается в том, что управление ими (то, что выше мы называли рутинными операциями) превращается в отдельный профессиональный вид деятельности. Отсюда возникает разделение труда между “летным” и “наземным” (т. е. внешним и штатным) персоналом. Специалист может быть прекрасным системным администратором, способным управлять сетью с высокой эффективностью в нормальных условиях, и при этом не быть готовым к ремонтным операциям, к работе в критических условиях.
Необходимость наличия штатных специалистов по управлению системами не вызывает сомнения. Сложнее обстоит дело с остальными компонентами сервиса. Рынок услуг в этом сегменте представлен организациями нескольких типов.
Во-первых, сервис-центры производителей. Эти компании обеспечивают все виды ремонтных и восстановительных работ применительно к определенному виду оборудования. Их услуги освобождают от необходимости иметь собственный склад запасных частей, их специалисты обладают опытом устранения самых сложных неисправностей. Непосредственные договорные отношения с такими организациями целесообразны при большом количестве однородного оборудования.
Во-вторых, сервис-интеграторы. Это относительно новая категория компаний, которая обеспечивает обслуживание многоплатформных сетевых информационных систем. Такие компании выступают в качестве посредников между потребителями услуг, производителями и их специализированными техническими центрами. Специалисты сервис-интегратора имеют уникальный опыт работы с “пограничными” проблемами информационных систем, квалифицированно решают задачи их развития и модернизации, представляя себе все трудности и “подводные камни” возможных решений и заранее предостерегая специалистов заказчика от ошибок.
Вместе с тем не все сервисные организации этой специализации готовы принять на себя решение вопросов консультационного характера, поскольку технология его специфична и отличается от технологии оперативного устранения сбоев оборудования и ПО. Однако получение ответов на эти вопросы для специалистов по управлению информационными системами не менее важно, чем сокращение времени простоев оборудования, поскольку позволяет оптимизировать использование ресурсов систем для выполнения производственных задач и снизить накладные расходы по эксплуатации.
И наконец, сервис-консалтинговые фирмы. Предоставляемый ими новый вид услуг “закрывает” подавляющее большинство задач поддержки эксплуатации информационных систем силами квалифицированных специалистов, имеющих уникальный опыт работы в области организации эффективного управления системами.
Спектр услуг при этом может варьироваться от создания простых программ технической поддержки оборудования до выполнения консалтинговых работ высокого уровня сложности и дает возможность специалистам IT-подразделения заказчика получить квалифицированные решения практически всех задач поддержки эксплуатации, возникающих на различных этапах развития информационной системы. Вот далеко не полный перечень задач, решаемых поддержкой такого уровня:
- сокращение времени простоев оборудования;
- комплексная поддержка многоплатформных информационных систем;
- решение “пограничных” проблем на уровне взаимодействия компонентов;
- получение оперативной технической информации;
- оптимизация работы программно-технических комплексов;
- обучение и тренинг персонала;
- мониторинг сетей и анализ работы систем за длительные периоды эксплуатации;
- консалтинговые исследования в специфических вопросах эксплуатации;
- планирование развития информационной системы;
- планирование штатных модификаций;
- экспертная оценка решений третьих фирм на соответствие задачам заказчика;
- помощь в создании регламентов обслуживания и безопасной эксплуатации информационных систем.
PC Week: Все, что вы сказали, Максим, мне очень понятно. Когда-то я, как автомобилист с большим стажем, сам ремонтировал двигатель; потом появился нормальный сервис и дело ограничилось для меня мелкими регулировками, а теперь, и то в редких случаях, - мойкой и уборкой в салоне. Я могу сейчас более эффективно использовать собственное время! Как и в этой аналогии, обслуживание информационных систем проходит подобный же эволюционный путь, - естественно, со своими специфическими проблемами и сложностями.
Благодарю вас за беседу. Надеюсь на продолжение нашего разговора в недалеком будущем.