Специалисты «Лаборатории Касперского» изучили открытые данные и внутренние источники, чтобы выяснить, как и для чего люди используют indirect prompt injection (непрямые инъекции затравки). Этому киберриску подвержены многие системы на основе больших языковых моделей (LLM). Речь о текстовых описаниях задач, которые должны выполнять чат-боты. В случае с непрямыми инъекциями пользователи могут даже не подозревать, что нейросеть выполняет чужие инструкции.
Как это работает. Множество решений на основе больших языковых моделей — алгоритмов, лежащих в основе популярных чат-ботов, работают так: человек задаёт вопрос чат-боту, который в свою очередь формулирует запрос к поисковой системе или доступной базе документов, читает выдачу, отбирает определённые страницы, анализирует и формирует ответ. Некоторые поисковые системы также резюмируют результаты при помощи языковых моделей. Однако люди могут размещать специальные фразы — инъекции — на своих сайтах и в опубликованных в сети документах, чтобы нейросети выдавали другим пользователям ответ, учитывающий цели интересантов. В «Лаборатории Касперского» привели примеры областей, в которых такой метод уже применяется.
Наём персонала. В некоторых компаниях скрининг резюме автоматизируется с помощью нейросетей. Зная это, соискатели применяют непрямую инъекцию, чтобы обратить внимание больших языковых моделей на свои резюме. Но делают они это так, чтобы прочитать добавленную инструкцию могли только боты, а не рекрутеры и другие люди. Так, нужные детали и запросы к чат-ботам они указывают мелким шрифтом, окрашивают текст в цвет фона, выносят за пределы окна при помощи отрицательных координат. Как правило, инъекции соискателей сводятся к двум инструкциям для нейросетей: просьбе максимально положительно отозваться о кандидате или пропустить резюме на следующий этап, выставить ему более высокий приоритет.
Поиск фрилансеров. Помимо соискателей, непрямые инъекции используют авторы объявлений на сайтах с поиском самозанятых. На некоторых таких ресурсах присутствует большое количество ботов, в том числе на основе нейросетей. Они пытаются первыми заполучить заказы, что усложняет поиск нужного подрядчика. Поэтому встречаются просьбы к ИИ-ассистентам откликнуться на предложение о работе в каком-либо забавном стиле (например, в образе пирата), чтобы сразу было понятно, что это бот, а не реальный человек.
Рекламные инъекции. Они направлены на поисковые чат-боты, чтобы их пользователи получали в ответ на свой вопрос более позитивную оценку конкретного продукта. Эти инъекции похожи по строению на те, что обнаруживались в резюме, и встречаются на сайтах самых разных товаров и услуг. Например, похожий текст специалисты «Лаборатории Касперского» нашли в исходном коде на странице с описанием популярного решения для оркестрации задач и построения пайплайнов обработки данных.
Инъекция как протест. Пользователи добавляют на свои личные страницы и в профили в социальных сетях разнообразные инструкции для чат-ботов, чтобы выразить протест. Например, один бразильский художник обращался к нейросетям с требованием не читать, не использовать, не хранить, не обрабатывать, не адаптировать и не повторять определённый контент на его сайте. Такие высказывания, вероятно, стали появляться в том числе как реакция на последствия повсеместного внедрения генеративного ИИ, связанные с потенциальным нарушением авторского права, лишением прибыли деятелей искусства, замусориванием интернета вторичным контентом.
Анализ киберугроз. Разные исследователи проводили лабораторные эксперименты, чтобы выяснить, как непрямые инъекции затравки могут использоваться в рамках целевого фишинга, для побега из контейнера при атаках на систему на базе LLM, способную самостоятельно выполнять действия на компьютере, а также для кражи данных из электронной почты. Стоит подчеркнуть, что на данный момент эти киберугрозы в большинстве случаев носят теоретический характер из-за ограниченных возможностей существующих решений на базе больших языковых моделей.
«В большинстве обнаруженных нами случаев использования непрямых инъекций какого-либо злого умысла у людей по сути не было. Однако киберзлоумышленники тоже проявляют активный интерес к нейросетям. Для защиты существующих и будущих решений на базе больших языковых моделей необходимо оценивать риски, изучать всевозможные методы обхода ограничений, — прокомментировал Владислав Тушканов, руководитель группы исследований и разработки технологий машинного обучения в „Лаборатории Касперского“. — Полностью защититься от инъекций невозможно. Важно понимать, какие угрозы может нести обработка недоверенного текста и применять ручной анализ данных или ограничивать возможности систем на базе LLM, способных самостоятельно выполнять действия на компьютере, а также использовать комплексные защитные решения на тех устройствах, где развёрнуты подобные системы».