По словам некоторых мейнтейнеров, искусственный интеллект используется для создания фейковых запросов в Open Source-репозитории о функциональных проблемах. На данный момент о проблемах, инициированных ИИ, заявили в Curl, React, CSS и Apache Airflow, сообщает портал The New Stack.
Один из мейнтейнеров отследил компанию, занимающуюся разработкой ИИ, которая заявила, что спам был ошибкой. Неизвестно, насколько широко распространена эта проблема, но она настолько серьезна, что мейнтейнеры не скрывают беспокойства.
Нарастание проблемы
Мейнтейнеры Apache Airflow заметили, что в один день у них почти в два раза увеличилось количество поданных запросов — до 50 по сравнению с обычными
«В последние дни и недели мы начали получать множество запросов, которые являются либо копиями других запросов, либо совершенно бесполезны и не имеют смысла, — отмечает Ярек Потюк, коммиттер и член PMC Apache Airflow, Open Source-платформы, которая позволяет пользователям разрабатывать, планировать и контролировать конвейеры данных. — Это отнимает драгоценное время мейнтейнеров, которым приходится оценивать и закрывать проблемы».
По его словам, заявки от ИИ не только создают больше работы для мейнтейнеров; они также могут привести к тому, что настоящие проблемы будут пропущены или неправильно закрыты.
«В день у нас бывает около 30 проблем, может быть 40, но теперь за 24 часа у нас появляется еще 30, то есть на 100% больше, а это значит, что мы не успеваем принимать решения по другим вопросам, потому что нам приходится принимать решения о том, что делать: настоящая это проблема или ложная? — поясняет Потюк. — Из-за этого очень пагубного влияния было по крайней мере два или три запроса, которые были созданы реальными людьми, и некоторые из мейнтейнеров, которые и так раздражены фейками, закрыли их как спам».
Позже он просмотрел эти запросы и заметил эти два-три закрытых, но легитимных вопроса. Потюк снова открыл их, но вероятность пропустить реальный вопрос остается. Он также слышал от других мейнтейнеров, что они сталкивались с подобной проблемой «странных» запросов, хотя у них не было такого количества фейковых проблем, как у AirFlow.
Отслеживание проблемы ИИ-спама
Потюк обратился к тем, кто связан с проблемами, инициированными ИИ, с просьбой объяснить, что происходит. Один из тех, кто отправлял фейковые проблемы, извинился. Он также рассказал, что следовал рекомендациям из обучающего видео Outlier AI об использовании ИИ для отправки проблем в репозитории. Но не знал, что отправляет проблемы в реальный репозиторий.
Outlier — это платформа, которая набирает профильных экспертов для обучения генеративного ИИ. Она также является единорогом Кремниевой долины и дочерней компанией Scale AI.
Сначала Потюк подумал, что Outlier пытается как-то обучить ИИ на основе ответов на запросы в репозитории, но это оказалось не так. Представители Scale сказали ему, что не предполагали, что зрители обучающего видео будут подавать запросы в реальные репозитории. По их словам это было просто упражнение по созданию запросов о проблемах. Они также отрицают, что пытались использовать репозитории для обучения своего ИИ.
ИИ-спам о безопасности
Маловероятно, что данная ситуация связана только с одной ИИ-компанией. ИИ также используется для рассылки спама о безопасности. Эта проблема возникла как минимум в начале 2024 г., когда о ней написал автор cURL Дэниел Стенберг. Совсем недавно на нее обратил внимание разработчик безопасности Python Software Foundation Сет Ларсон.
«В последнее время я заметил увеличение количества крайне низкокачественных, спамерских и галлюцинированных большими языковыми моделями (LLM) отчетов о безопасности Open Source-проектов, — пишет он. — Проблема связана с LLM; эти отчеты на первый взгляд кажутся потенциально легитимными и поэтому требуют времени на опровержение».
Проблема «распространялась по тысячам Open Source-проектов, но из-за чувствительного характера отчетов о безопасности мейнтейнерам не рекомендуется делиться своим опытом или просить о помощи», — добавляет Ларсон.
Он призывает разработчиков не использовать ИИ или LLM для обнаружения уязвимостей. «Сегодня эти системы не могут понять код, а поиск уязвимостей безопасности требует понимания кода и понимания концепций человеческого уровня, таких как намерение, обычное использование и контекст», — отмечает он.
Ларсон также считает, что критическое мышление тут не помешает.
«Некоторые создатели отчетов запускают различные инструменты сканирования безопасности и создают отчеты об уязвимостях, основываясь на полученных результатах, как кажется, без критического осмысления, — пишет он. — Например, urllib3 недавно получил подобный отчет, потому что инструмент определил наше использование SSLv2 как небезопасное, хотя мы явно отключили SSLv2».
Генеративный ИИ как простой генератор масштабных атак
Крейг Маклаки, сооснователь Kubernetes, а ныне основатель и генеральный директор Stacklok, рассказывает, что его команда обнаружила человека, пытавшегося устроить засаду на репозитории путем создания пакетов с названиями, похожими на названия известных пакетов.
Оказалось, что кто-то пытается мошенничать с протоколом Tea, который представляет собой децентрализованную структуру для управления признанием и вознаграждением Open Source-разработчиков.
«Они публиковали тысячи, тысячи и тысячи пакетов с единственной целью — создать впечатление, что эти пакеты являются важной частью экосистемы открытого кода, — говорит Маклаки. — Объем этих засадных пакетов просто зашкаливал, и мне кажется, что для того, чтобы кто-то мог создавать такие объемы и такие незначительные вариации, которые мы наблюдаем, за кулисами, вероятно, работал агент генеративного ИИ».
Разработчики протокола Tea согласились, что это «определенно плохое поведение», а затем совместно с npm удалили пакеты.
«Генеративный ИИ все чаще используется для легкого создания вариаций чего угодно в любых масштабах, и я думаю, что дальше будет только хуже», — считает Маклаки.
Реагирование на заявки от ИИ
В GitHub отреагировали на проблему ИИ-запросов в репозитории.
«Более 150 млн. разработчиков работают на GitHub с более 420 млн. репозиториев, и мы стремимся обеспечить им безопасную и надежную платформу, — сообщил представитель компании. — У нас есть команды, которые занимаются обнаружением, анализом и удалением контента и учетных записей, нарушающих наши правила допустимого использования».
В GitHub добавили, что используют ручные проверки и масштабные обнаружения, которые используют МО и постоянно развиваются и адаптируются к вражеским тактикам. «Мы призываем пользователей и членов сообщества сообщать о злоупотреблениях и спаме», — сказал представитель компании.
Потюк также советует мейнтейнерам сообщать об ИИ-запросах в GitHub. Еще он рекомендует группам Open Source-разработчиков сотрудничать с «хорошими» ИИ-компаниями для выявления фейковых проблем. Его команда работает с ИИ-компанией под названием Dosu, которая, как он считает, помогает отсеивать проблемы. По его словам, это совсем другой опыт, потому что ИИ-компания работает в тесном контакте с командой разработчиков: «Они автоматически присваивают ярлыки проблемам на основе контента, который создают люди, и это позволяет нам классифицировать проблемы, не тратя на это много времени».