Облачное средство поддержки ИТ-служб HPE InfoSight значительно облегчает труд специалистов, занятых сопровождением СХД и всей работающей с ними в связке вычислительной инфраструктуры. Телеметрия от сотен тысяч реально эксплуатируемых систем аккумулируется в облаке НРЕ и формирует единую базу знаний. Её автоматизированный интеллектуальный анализ позволяет прогнозировать и предотвращать инциденты самого различного уровня опасности для данных заказчика, составлять персонифицированные рекомендации для каждой конкретной СХД по превентивному устранению вероятных угроз, а также планировать развитие продуктов HPE в чётком соответствии с условиями их эксплуатации. Об архитектуре, реализации и практических приложениях InfoSight рассказывают Алексей Казьмин, менеджер по продуктам HPE, и Андрей Кондратьев, директор департамента системной интеграции «ИНЛАЙН ГРУП».
Начиная с какого уровня бизнеса имеет смысл автоматизировать управление инфраструктурой? Действительно ли она усложнилась настолько, что уже настоятельно требует применения аналитики больших данных и поддержки искусственного интеллекта?
Алексей Казьмин: Сейчас плюсами HPE InfoSight может пользоваться компания любого размера, любого уровня зрелости бизнеса. Для каждого заказчика эти выгоды могут по-разному проявлять себя и измеряться, но в целом они сводятся к экономии времени и усилий, которые ИТ-службы тратят на сопровождение инфраструктуры. Дело в том, что ИТ-инфраструктура всегда была чрезвычайно интеллектоёмкой отраслью. Но если лет 20 назад на ИТ в своих бизнес-процессах всерьёз опирались лишь считанные компании, то сегодня это норма для подавляющего большинства бизнесов в России и мире. А сами вычислительные средства год от года становятся всё сложнее и многообразнее.
В результате сейчас мы всё чаще наблюдаем проявления комплексных проблем на стыках разных частей ИТ-инфраструктуры. Да, многие наши заказчики по-прежнему стараются поддерживать внутри ИТ-службы все нужные экспертизы, сами планируют и развивают свою инфраструктуру, а к производителю ходят только за запчастями и обновлениями ПО. Но всё больше заказчиков хотят просто получать надёжную и предсказуемую базу для ИТ-сервисов, а время немногочисленных ИТ-специалистов тратить на более высокоуровневые задачи. Вот поэтому мы в НРЕ решили свести в единую базу все знания и опыт, накопленные на огромном числе установленных по всему миру наших продуктов, и предоставить доступ к выявленным в ходе машинного анализа этой базы закономерностям всем своим заказчикам. Именно так появился InfoSight: его идея в том, чтобы проблема любого уровня сложности, проявившая себя где-то даже единожды, не повторилась бы больше ни у кого.
Андрей Кондратьев: Сегодня ИТ-инфраструктура гораздо сложнее прежней: вместо выделенного аппаратного сервера под каждую задачу (СУБД, почта, веб-сайт и т. п.) — виртуализация, контейнеризация, разнородные типы вычислительной нагрузки на одном и том же «железе». В итоге ощутимо сложнее анализировать, что в данный момент происходит на аппаратном уровне, почему наблюдаются те или иные задержки. И потому средства мониторинга и анализа всего этого сложного хозяйства обязаны совершенствоваться, иначе за ним не уследить.
Расскажите о принципах работы HPE InfoSight. Какая телеметрия отправляется от заказчиков в облако, насколько она обезличена?
Алексей Казьмин: По сути, InfoSight — это система сбора и анализа телеметрии с подключённых устройств. Поддерживают её серверные системы и СХД под маркой НРЕ: все ProLiant, BladeSystem, Apollo, Synergy, т. е. все серверы, начиная с поколения Gen8. Из СХД в настоящее время — Nimble, 3PAR, Primera и гиперконвергентные системы SimpliVity, а остальные системы хранения НРЕ, такие как MSA или XP, в перспективе также могут быть совместимы с InfoSight.
Телеметрия в каждой инфраструктуре с разной регулярностью собирается с сотен и даже тысяч датчиков, львиная доля которых — программные (данные о работе прошивок оборудования и платформенного ПО: гипервизора, гостевых ОС и т. п.), хотя есть и аппаратные (счётчики оборотов на вентиляторах и жёстких дисках, измерители напряжения, температуры и т. д.). В сумме всё это позволяет судить о том, какое оборудование входит в каждый аппаратно-программный модуль ИТ-инфраструктуры (например, СХД), какие задачи он решает и насколько успешно, сколько потребляет ресурсов и с какой эффективностью, как взаимодействует с другими модулями.
Подчеркну: InfoSight собирает метаданные о функционировании инфраструктуры, никоим образом не получая доступа к бизнес-информации заказчика. Анализ метаданных позволяет находить корреляции между весьма разнородными на первый взгляд событиями и тем самым выявлять причины инцидентов даже в самых сложных гетерогенных вычислительных средах.
Собранные метаданные отправляются в зашифрованном виде через одностороннее зашифрованное соединение в облако НРЕ, сопровождаемые уникальным идентификатором заказчика. Даже в случае перехвата и крайне маловероятной расшифровки пакетов метаданных в канале передачи будет невозможно понять, какому конкретному заказчику принадлежат эти пакеты. Телеметрия связывается в единую картинку только при заходе заказчика на веб-портал. Поскольку НРЕ сама выполняет для заказчиков комплексные проекты по построению безопасной ИТ-инфраструктуры, с точки зрения ИБ InfoSight организован самым современным образом. Как я уже сказал, поток данных строго односторонний, от заказчиков к нам, т. е. даже если злоумышленник возьмёт под контроль все внутренние системы НРЕ, он никаким образом не сумеет получить доступ к инфраструктуре заказчика через InfoSight.
Что позволяет говорить об HPE InfoSight именно как о полноценной системе искусственного интеллекта?
Алексей Казьмин: Действительно, некоторые функции, которые используют клиенты на веб-портале InfoSight, вовсе не требуют ИИ как такового, а подразумевают прямую обработку большого массива данных рядовыми алгоритмами математической статистики. Но вот где ИИ действительно важен, где без него не обойтись, — так это в области прогнозирования. У нас за всё время работы InfoSight накоплено более 1 Пб метаданных, и сама возможность делать на основе этого океана информации какие-то прогнозы подразумевает необходимость применения машинного обучения и алгоритмов, которые можно условно назвать алгоритмами построения цифрового двойника.
InfoSight на данный момент выявляет 96% всех возникающих в инфраструктуре наших заказчиков проблем, причём из них для 86% из них автоматизированные методы решения, которые он предлагает, срабатывают как надо. Это, кстати, во многом разгружает уже нашу же собственную службу поддержки для работы с наиболее сложными сервисными заявками.
Каковы практические выгоды для заказчиков от использования HPE InfoSight?
Алексей Казьмин: Начнём с того, что InfoSight — бесплатный сервис: его активация не требует дополнительных затрат для заказчика. И всё же экономический эффект от его применения подсчитать можно, даже несколькими способами. Например, оценить количество затрат человеко-часов на поддержание инфраструктуры, на планирование её развития, на решение возникающих в ней проблем и посмотреть, насколько опора на InfoSight позволяет их уменьшить. Сразу скажу: сокращение человеко-часов на решение сложных проблем наблюдается даже не на десятки процентов, а в разы. Есть и не столь прямолинейно подсчитываемые выгоды. Так, у ИТ-специалистов, которые привыкли работать с InfoSight, появляется гораздо больше времени на действительно интеллектуальную деятельность: разработку и внедрение новых моделей архитектур, новых сервисов и т. д. В итоге заказчик привыкает, что его ИТ-инфраструктура просто работает, и незачем на неё отвлекаться, можно сосредоточиться на основном направлении бизнеса. Мы также видим, что у активных пользователей InfoSight окна технологического обслуживания становятся короче и сдвигаются в рабочие часы из ночей и выходных.
Андрей Кондратьев: В случае НРЕ InfoSight у заказчика уже есть система мониторинга ИТ-инфраструктуры, причём бесплатная, а интервал времени от первых, ещё не видимых администратору проявлений до полного исправления ситуации сокращается до минимума. В частности, исчезает главная головная боль любого администратора гетерогенной среды: несовпадение прошивок на хост-адаптерах, коммутаторах и дисковых массивах, когда возникает проблема, которую сходу невозможно локализовать. А InfoSight способен ее легко обнаружить и предупредить ещё не возникший сбой.
Но если всё-таки заказчик принципиально не в состоянии подключить своё оборудование к Интернету, может ли он воспользоваться хоть какими-то преимуществами InfoSight?
Алексей Казьмин: Когда заказчик говорит, что нет возможности подключить оборудование к облаку InfoSight, реальных причин тут может быть две. Первая: Интернет на самом деле физически недоступен на площадке, где развёрнута инфраструктура (так называемый dark site). С этим всё понятно, и для такого случая у нас есть локальные программные решения для мониторинга и алгоритмического прогнозирования поведения ИТ-инфраструктуры, своего рода «маленький брат Большого Брата»: это и встроенные в СХД HPE Primera средства, и отдельная утилита HPE SSMC. Возможности этих средств частично зависят от регулярных обновлений в офлайн-режиме, а частично растут по мере работы в данной конкретной инфраструктуре — чем дальше, тем более эффективные прогнозы и рекомендации они выдают.
Но есть ещё и вторая причина: служба ИБ заказчика просто не даёт согласия, действуя по стандартной схеме «если не доказано, что это безопасно, — значит, это опасно». Позиция понятная, и у НРЕ есть успешная практика, в том числе в России, аргументированной работы со службами ИБ. Мы методично разъясняем, как работает InfoSight, какие данные собирает, куда и как часто отправляет. Наши слова легко проверить, для этого есть известные методики. Для справки, сегодня из СХД НРЕ, эксплуатируемых в России, более 70% успешно подключены к InfoSight через Интернет.
Приведите, если возможно, несколько примеров использования HPE InfoSight российскими заказчиками.
Андрей Кондратьев: Приведу пример от противного. Некоторое время назад у «ИНЛАЙН ГРУП» был большой проект по поставке и развёртыванию серверов (сразу скажу, не НРЕ) для одной информационной системы. Так случилось (изначально этого никто не знал, конечно), что на заводе часть партии этих серверов укомплектовали кэш-памятью с хитрым дефектом, который проявлял себя не сразу и приводил к труднолокализуемым сбоям. Мы всё поставили, смонтировали, наладили, и примерно через две недели начались первые выпадения серверов в синий экран. Совершенно бессистемные: всё «железо» вроде бы в полном порядке, а инциденты раз за разом происходят. Мы больше месяца бились над этой задачей совместно со службой поддержки производителя. А если бы там была система InfoSight, всё сложилось бы иначе: сбой в работе кэш-памяти был бы своевременно выявлен благодаря тем самым программным датчикам, о которых говорилось в самом начале.
Алексей Казьмин: Мой любимый пример, тоже без имён. Один российский заказчик перевел свои ключевые приложения с СХД начального уровня НРE MSA на новую систему HPE Nimble. Сделал все своими силами: инсталлировал систему, подключил к серверам через сеть SAN, перенёс задачи. Делал это в пятницу вечером, как полагается, а после запуска выяснилось, что всё страшно тормозит; новенькая гибридная СХД среднего класса работает ощутимо медленнее, чем видавшая виды MSA, где даже ни единого SSD не было. Можно долго рассказывать, как заказчик начал звонить поставщику, как в ночь на субботу и дальше в выходные ИТ-специалисты обеих компаний бились над локализацией проблемы, пока их начальство переходило в телефонных разговорах на всё более повышенные тона... Когда же в понедельник дело дошло до звонка в техподдержку НРЕ, заказчику посоветовали довести инсталляцию Nimble до конца: поставить галочку-согласие против пункта о том, что массив должен отправлять данные в InfoSight. Он так и сделал.
Прошёл ровно час, после чего специалист поддержки НРЕ прислал заказчику детальный отчёт о состоянии его инфраструктуры: «Смотрите, у вас массив подключён к хостам через определённый коммутатор, не НРЕ. Глядя на него с двух сторон — от платформы виртуализации на серверах и от СХД — мы видим, что не все пакеты проходят как надо». Потребовалось всего лишь обновить прошивку на коммутаторе и поставить в его настройках пару галочек, и через несколько дней от заказчика пришло письмо: «Сделали всё по вашим инструкциям, производительность СХД на нужном уровне».
В этом примере противопоставлены два подхода к наладке работы ИТ-инфраструктуры: классического, человеческого, эмоционального, и нового, роботизированного, холодного и точного. Какой из них эффективнее, можно увидеть наглядно. Как в современном самолёте полет без автопилота возможен, но не рекомендуется по целому ряду соображений безопасности, экономичности и соблюдения лучших практик эксплуатации, так и в ИТ-инфраструктуре пришло уже время полагаться на роботов. А люди легко найдут себе дела поинтереснее, чем «чтобы всё просто работало».