Сегодня ИТ-команды сталкиваются с трудной задачей обработки выходных данных ИТ-операций из-за их огромного объема и сложности. В ответ на это растет потребность в применении ИИ в ИТ-операциях (AIOps), пишет на портале EnterpriseAI Фрэнк Келли, вице-президент компании Hughes Network Systems.

AIOps использует большие данные и машинное обучение для прогнозирования, идентификации, диагностики и разрешения ИТ-событий в таких масштабах и с такой скоростью, которые человеку просто не по силам. Согласно недавнему отчету Insight Partners, объем рынка платформ AIOps в период с 2021 по 2028 гг. будет ежегодно расти в среднем на 32,2% — примерно с 2,83 млрд. долл. в 2021 г. до 19,93 млрд. долл. в 2028-м.

Однако эффективные решения не появляются в одночасье. Полностью готовое решение AIOps создается по рецепту, отточенному в течение долгого времени путем тщательных экспериментов с тремя основными ингредиентами: данными, аналитикой и разнообразными предметными знаниями.

Данные

Успешные AIOps-решения просто не существуют без данных. Этот ингредиент критически важен, и, хотя он имеется в изобилии, проблема заключается в сборе данных в пригодной для использования и проверенной форме. AIOps опирается на сотни — или даже тысячи — точек данных из разнообразных источников (например, производительность сети, бизнес-системы и служба поддержки клиентов), которые генерируются ежесекундно, а во многих случаях и с субсекундной скоростью. То, как обрабатывается этот огромный пул данных, может обеспечить работу или сломать решение AIOps. Для обеспечения скорости, экономичности и максимальной эффективности наилучший результат дает разделение управления данными на локальные и внешние.

Традиционная онпремисная модель обработки данных уже не может справиться со сложностью и объемом современных массивов данных. Вместо этого лучше рассмотреть возможность создания или изменения архитектуры воронки обработки данных, разделив ее на две части: бережливый, быстро обрабатывающий конвейер, проходящий через локальную шину данных реального времени для проведения критического ко времени анализа, и более стабильный конвейер, анализирующий оставшиеся данные в облаке. Сокращение локального производства данных до минимума и передача обработки оставшейся части данных в облако, располагающее эластичными вычислительными ресурсами и более сложными возможностями хранения, обеспечивает более быстрый и экономически эффективный синтез данных.

Модель разделенного конвейера, которая одновременно управляет данными в облаке и вне его, может повысить способность организации обрабатывать миллионы точек данных каждый час. Алгоритмы MО могут помочь приоритизировать входящие данные из каждого конвейера и преобразовать необработанные, неструктурированные данные в пригодные для использования метрики, важные для агентов по обслуживанию клиентов или ИТ-команд. Эффективность и скорость, достигаемые с помощью двухканальной системы, также позволяют организациям развернуть расширенные возможности мониторинга для получения информации о производительности сети в режиме реального времени и долгосрочных тенденциях.

Аналитика

Второй важный компонент успеха AIOps — это аналитика. Аналитика входит в состав AIOps на двух этапах, включая исследовательский анализ — просеивание необработанных данных для выявления тенденций или аномалий, которые требуют дополнительного изучения, и продвинутый статистический анализ, который выдает действенные инсайты. Пока данные проходят через конвейеры, инженерные команды часто спешат перейти к продвинутому статистическому анализу, несмотря на неотъемлемую роль исследовательского анализа. Пропуск этого начального этапа может привести к чрезмерной подгонке данных — внесению предвзятости в процесс AIOps и ложному выявлению проблем, которые сделают алгоритмы ИИ/МО бесполезными и вызовут непредвиденные операционные последствия.

Исследовательский анализ полагается как на MО, так и на специалистов по анализу данных для выявления и определения конкретных показателей, важных для агентов службы поддержки клиентов и инженеров. ИТ-команды могут отдавать в этом процессе предпочтение MО — это захватывающая технология, которая кажется эффективной. Но MО само по себе не всегда является наиболее эффективным методом анализа. MО пытается решить конкретную проблему на основе набора определенных параметров. Инженеры программируют алгоритмы MО на основе метрик, которые, по их мнению, необходимы для получения заключений A, B или C — тем самым исключая из рассмотрения другие возможные решения или статистические данные.

И наоборот, статистики и специалисты по анализу данных изучают необработанные данные, не имея в виду конкретный результат, а рассматривая цифры на предмет закономерностей или аномалий. Ручной анализ данных, хотя и является утомительным, позволяет экспертам находить простые ИТ-решения, не требующие углубленного статистического анализа. Например, в результате жалоб на производительность беспроводной сети команда аналитиков прочесала интерактивные визуализации данных на приборной панели и обнаружила, что все проблемные сайты принадлежат одному оператору беспроводной связи. Отсюда они сделали вывод, что все эти сайты оснащены одной и той же моделью беспроводного модема. Наконец, они обнаружили, что проблема возникала при использовании определенного диапазона беспроводной связи. Проблема была знакома оператору беспроводной связи и была решена путем замены модема на другую модель.

Когда команды уверены в правильности тенденций или аномалий, выявленных на этапе исследования, они могут перейти к расширенному статистическому анализу и обучению алгоритмов ИИ/МО. Но даже ИИ/МО требует тестирования методом проб и ошибок и не дает немедленных результатов. За каждым решением AIOps стоит команда предметных экспертов, которые постоянно настраивают и тестируют модели ИИ/МО, чтобы обеспечить успех AIOps.

Разносторонний опыт в различных областях

Третьим компонентом успешного внедрения AIOps является экспертиза в различных областях. В случае создания AIOps не может быть слишком много пресловутых поваров на кухне. Успешное внедрение ИИ на любом предприятии требует привлечения специалистов в различных областях. Например, сетевые инженеры понимают нюансы систем MО и необходимые алгоритмы ИИ для точного решения конкретной задачи в области сетевых операций. В то же время нетехнические эксперты привносят отраслевые знания, такие как источники и удобство использования наборов данных, бизнес-стратегии и операции. Пул глубоких экспертов в предметных областях гарантирует, что алгоритмы ИИ/МО отражают реальные операции, обеспечивает решающую проверку результатов и способен выявлять ошибочные подходы или непредвиденные последствия. Например, система связи, проходящая плановое техническое обслуживание, может демонстрировать поведение (например, крайне низкий сетевой трафик), которое обычно указывает на проблемное состояние. Добавление к прогнозам модели слоя бизнес-логики, взаимодействующего с системой регистрации заявок на техническое обслуживание, устраняет эти ложные тревоги.

Предметные эксперты играют важную роль не только на гипотетической кухне, но также и в теоретической столовой, где они могут консультировать руководителей, жаждущих решений AIOps. MО имеет тенденцию работать в режиме «черного ящика», в результате чего команды не могут сформулировать рецепт, по которому модель пришла к определенному решению. Это может привести к скептицизму и колебаниям среди руководителей компаний в отношении выполнения действий, основанных на выводах ИИ. С другой стороны, объяснимый ИИ обеспечивает более глубокое понимание и доверие со стороны руководителей компаний, не знакомых с AIOps.

Для AIOps требуются три основных ингредиента, но, как и в любом рецепте, качество этих ингредиентов и то, в чьи руки они попадут, будет иметь решающее значение для результата. Как и в случае с лучшими в мире творениями шеф-повара, пробы и ошибки являются частью процесса, особенно в сложном искусстве обучения МО. Обеспечение правильной обработки данных, использование правильного типа аналитики и привлечение экспертов в предметных областях поможет предприятиям создать успешное, масштабируемое решение AIOps, способное удовлетворить растущий аппетит к операционной эффективности.