Сбои в работе искусственного интеллекта неизбежны, и командам ИТ-операций (ITOps) необходимо адаптироваться, внедряя новые процессы, создавая межфункциональные команды и совершенствуя коммуникацию, пишет на портале The New Stack Кэт Гейнс, руководитель команды по связям с разработчиками компании PagerDuty.

Если 2025-й был годом широкого внедрения ИИ, когда 88% организаций стали использовать его как минимум в одной бизнес-функции, то 2026-й, вероятно, станет годом инцидентов, связанных с ИИ. Поскольку системы ИИ развертываются с высокой скоростью, неизбежны пробелы в управлении, надзоре и отказоустойчивости. В этих условиях командам ITOps необходимо подготовиться к инцидентам, связанным с ИИ, и переосмыслить традиционные процессы управления операциями, чтобы соответствовать меняющейся природе риска.

В нынешнем году три следующих изменения определят то, как организации будут управлять связанными с ИИ инцидентами, реагировать на них и общаться по этому поводу.

Связанные с ИИ инциденты станут отдельной категорией

По мере того, как ИИ будет все глубже внедряться в бизнес-операции, организации будут рассматривать инциденты, связанные с ИИ, как отдельную категорию, требующую специальных процессов устранения. Более широкое внедрение ИИ приводит к появлению новых типов сбоев, особенно в тех случаях, когда сторонние инструменты ИИ получают доступ к защищенным данным и внутренним системам.

Когда системы ИИ дают сбой, ущерб может быть серьезным. Опрос IBM показал, что 63% организаций не имеют формальных политик управления для контроля ИИ или предотвращения распространения теневого ИИ, что подчеркивает, насколько многие остаются неподготовленными к операционным рискам, связанным с ИИ. Для решения этой проблемы организации должны уделять приоритетное внимание ответственному внедрению ИИ и внедрять меры защиты до возникновения инцидентов.

В ответ на новые типы сбоев организации начинают измерять надежность ИИ как операционный показатель. Это позволяет командам оценивать, насколько эффективно инструменты ИИ выполняют задачи, и определять, когда требуется вмешательство. Ключевые индикаторы могут включать частоту ложных срабатываний, предвзятость и дрейф модели. Можно ожидать появления специализированных практических руководств по ИИ для решения этих рисков, наряду с угрозами безопасности, такими как атаки с инъекцией промптов.

Хотя роль ИИ и автоматизации в управлении операциями будет продолжать развиваться, риск инцидентов с ИИ означает, что организации должны сохранять участие человека в качестве критически важной меры защиты и должны обеспечивать, чтобы инструменты ИИ запрашивали одобрение для рискованных действий. Это оставит возможность ручного вмешательства в случае сбоя автоматизированных процессов и гарантирует сохранение контроля качества, осуществляемого человеком, для мониторинга и управления надежностью ИИ.

Состав команд изменится

Инциденты, связанные с ИИ, затрагивают различные команды и бизнес-функции, заставляя команды ITOps переосмыслить организацию управления инцидентами. На практике это будет означать приоритетное межфункциональное обучение, расширение круга ролей, участвующих в устранении инцидентов, и снижение зависимости от небольшой группы специалистов по реагированию. Со временем этот сдвиг разрушит традиционные операционные барьеры и более равномерно распределит ответственность между командами.

Поскольку инциденты, связанные с ИИ, редко ограничиваются одной системой, их влияние часто распространяется на несколько бизнес-подразделений и затрагивает как внутренние команды, так и клиентов. В результате в устранении инцидентов все чаще будут участвовать эксперты из нетехнических областей, которые обычно не принимают участия в разрешении проблем. Организациям следует учитывать эту более широкую группу при разработке процессов обучения управлению инцидентами и реагирования.

Этот сдвиг также имеет последствия для структуры дежурства. Ротации, сочетающие глубокие технические знания с более широким участием нескольких команд, имеют важное значение, поскольку такая структура команды гарантирует наличие инженеров по машинному обучению и специалистов в области науки о данных наряду с нетехническими сотрудниками, понимающими влияние на клиентов и бизнес-контекст. Вместе участники этих групп могут сотрудничать для решения инцидентов, связанных с ИИ, вне рабочего времени, минимизируя сбои как в системах, так и у клиентов.

Стратегии коммуникации будут развиваться

Учитывая, что инциденты, связанные с ИИ, являются сложными и затрагивают различные аспекты, коммуникация должна соответствующим образом меняться. Информирование по инцидентам должно выйти за рамки обновлений статического статуса и предоставлять своевременные и точные объяснения влияния и дальнейших шагов, особенно когда затрагиваются клиенты и заинтересованные стороны.

Когда происходят инциденты, клиенты ожидают ясности в отношении того, как они затронуты, и прозрачности процесса разрешения, а не просто страницы состояния, которая становится красной.

Коммуникации с использованием ИИ позволяют организациям выйти за рамки реактивных уведомлений и заблаговременно объяснять влияние и дальнейшие шаги в режиме реального времени. Эта своевременность и точность позволяют клиентам принимать меры и минимизировать последствия для своих собственных сервисов.

Организации, использующие ИИ и автоматизацию для повышения скорости и точности информирования об инцидентах, могут превратить события, подрывающие доверие, в моменты прозрачности, способствующие его укреплению. Таким образом, они выделяются не за счет полного избегания инцидентов, а за счет демонстрации ответственности и четкой коммуникации в случае возникновения сбоев.

Адаптация к меняющемуся характеру инцидентов

Быстрое внедрение ИИ знаменует собой новый этап в управлении операциями, меняющий способы выявления, управления и информирования об инцидентах. Организациям необходимо адаптироваться, чтобы выжить, поскольку те, у кого медленные, реактивные процессы управления инцидентами, потерпят неудачу в эпоху инцидентов, связанных с ИИ.

Организации, переходящие к проактивным, основанным на интеллекте операциям, лучше всего подготовлены к тому, чтобы идти в ногу с этими изменениями. Инструменты, поддерживаемые ИИ и автоматизацией, помогают командам предвидеть инциденты и прогнозировать будущие события, чтобы применять превентивные меры. Те, кто модернизирует свои методы управления операциями, будут лучше подготовлены к управлению рисками, связанными с ИИ, и поддержанию доверия.

В эпоху ИИ операционная устойчивость больше не является опциональной. Это определяющая способность.