В условиях, когда генеративный ИИ (GenAI) может стать переломным моментом как для законопослушных компаний, так и для киберпреступных группировок, важно разобраться в том, какой обоюдоострый меч представляют собой большие языковые модели (LLM) для кибербезопасности. Опрошенные порталом Information Age эксперты обсуждают риски, которые могут нести LLM для безопасности бизнеса, способы использования этой технологии злоумышленниками и то, как команды безопасности могут эффективно сдерживать атаки с использованием ИИ.

LLM, лежащие в основе GenAI, в последнее время стали объектом значительных инвестиций и привлекли внимание практически всех коммерческих и технических подразделений организаций. В то же время командам кибербезопасности при оптимизации своих стратегий необходимо учитывать растущее использование LLM субъектами угроз, а также опасаться внутренних угроз.

Опасности, которые следует учитывать

Исследование компании Cybsafe, посвященное изменению поведения персонала в связи с появлением генеративного ИИ, показало, что сотрудники посредством инструментов ИИ делятся конфиденциальной информацией компании, которую, как они знают, не должны разглашать даже друзьям в социальной среде вне рабочего места. Более половины (52%) британских офисных работников вводили рабочую информацию в генеративный ИИ, причем 38% признались, что делились данными, которые они не стали бы случайно раскрывать друзьям в пабе. Передача LLM конфиденциальной информации может помочь субъектам угроз получить доступ к системам компании, нарушив меры кибербезопасности.

«Применение LLM сопряжено с двумя основными рисками, — говорит Эндрю Уэйли, старший технический директор компании Promon. — Во-первых, GenAI способен превратить специализированные и дорогостоящие навыки в нечто доступное любому человеку с помощью автоматизированных „ботов“. Во-вторых, что более тревожно, существует риск, что эти модели могут понять широко распространенные в настоящее время методы статической обфускации кода. Такое понимание может привести к созданию инструмента, снимающего обфускацию с защищенных приложений, обнажающего их структуру и делающего их уязвимыми для манипуляций».

По его словам, для борьбы с этой угрозой крайне важно разработать основы инновационных «динамических» обфускаций, которые предполагают защиту от мутации кода во время выполнения. «Динамическая природа сделает невозможным понимание кода в статическом контексте. Реализация таких методов динамической обфускации необходима для противодействия потенциальным рискам в области кибербезопасности, связанным с неправомерным использованием GenAI», — поясняет Уэйли.

Анализ безопасности веб-сайтов

Несмотря на множество преимуществ для бизнеса, в неправильных руках такие LLM, как ChatGPT, могут быть использованы с вредоносными целями. Один из способов, обнаруженных исследователями в области безопасности, заключается в возможности выявлять наличие уязвимостей в ПО веб-сайта.

Этай Маор, старший директор по стратегии безопасности компании Cato Networks, вспоминает: «Однажды я проверял исходный код сайта, на котором находился, и спросил у ChatGPT: „Уязвим ли он к чему-либо?“. И он ответил, что нет. Затем я зашел на сайт, который, как мне было известно, является уязвимым. Я скопировал исходный код и снова спросил ChatGPT, уязвим ли он. Чатбот не только ответил „да“, но и показал, какая уязвимость может быть использована и что можно сделать для ее устранения. Так что, к сожалению, он может помочь и в этом смысле».

Участие человека в процессе мониторинга данных, на которых обучаются LLM, является и будет оставаться важнейшим фактором долгосрочной безопасности при использовании таких технологий.

Конструирование фишинговых писем

В последнее время фишинговые кампании столкнулись с технологическим прорывом в виде GenAI: субъекты угороз используют LLM для попыток проникновения в сети компаний более эффективными способами, используя электронную почту, социальные сети и другие средства цифровой коммуникации. Недавно компания Darktrace предупредила о появлении фишинговых афер, в которых для доставки используется ChatGPT.

«LLM могут быть очень хороши в составлении фишинговых писем и написании их на разных языках, — говорит Маор. — В прошлом субъектам угроз было несколько сложнее, поскольку, если они хотели запустить международную фишинговую кампанию, им приходилось покупать услуги у другого преступника, который делал за них перевод и реализовывал другие возможности. Теперь же киберпреступники могут делать это на лету».

Предвзятость и дезинформация

Предвзятость может случайно проникнуть в процесс обучения моделей ИИ, что приведет к появлению ошибок в результатах. LLM работают, обучаясь на основе взаимодействия, что, хотя и является интуитивным и потенциально способствующим творчеству, может также привести к генерации дезинформации.
«Проблема не в технологии, а в ее использовании и, в частности, в данных, на которых она обучается», — говорит Игорь Байкалов, главный научный сотрудник компании Semperis. По его словам, Microsoft усвоила этот урок семь лет назад, когда ей пришлось закрыть свой чатбот с ИИ после менее чем 24 часов взаимодействия с самым активным сообществом в Интернете — экстремистами — и обучения у них.

«OpenAI либо не поняла, что публичные данные из этого огромного болота ошибочной информации, называемого Интернетом, ретранслировать небезопасно, либо решила, что любая реклама — это хорошая реклама, и все равно пошла дальше. Цензура на выдачу столь плодовитого словесного генератора крайне неэффективна и вносит еще один уровень предвзятости, — отмечает Байкалов. — Решением проблемы является проверка данных, используемых для обучения, но это крайне сложно, учитывая объем и широту тематики. Краудсорсинг процесса наталкивается на проблему чатботов, с которой столкнулась MS, — теперь приходится проверять модераторов».

Преимущества LLM для команд безопасности

С другой стороны, использование LLM может принести сотрудникам служб кибербезопасности целый ряд операционных преимуществ. Однако это во многом зависит от тщательности управления входными данными модели.

«Для автоматизации и масштабирования проактивных операций по выявлению, обнаружению, защите и реагированию на киберугрозы сегодня применяются LLM, машинное обучение и другие методы глубокого обучения и поведенческие подходы, — говорит д-р Меш Болутиви, директор отдела GRC компании CyberCX UK. — Например, системы и решения безопасности, использующие LLM, могут анализировать огромные объемы данных, таких как журналы (например, сетевые, системные, журналы приложений, журналы безопасности и т. д.), документы, данные о поведении пользователей и работе систем, для выявления угроз, аномалий и закономерностей, указывающих на кибератаки».

По его словам, способность решений на базе LLM поддерживать усилия по обнаружению, оценке, проверке, исправлению, мониторингу и внедрению соответствующих сквозных решений по реагированию на риски для борьбы с текущими и будущими киберугрозами открывает большие перспективы, потенциально приводя к созданию более эффективных решений по обнаружению и предотвращению вторжений для проактивного выявления и блокирования угроз и вредоносных действий.

Остаться в нише

Байкалов считает, что использование LLM в нишевых приложениях и сценариях кибербезопасности может принести долгосрочную выгоду при условии правильного обучения на тщательно отобранных данных, ограниченных конкретными областями.

«Для глубокого изучения темы LLM необходим большой объем данных, поэтому продукты от технологических гигантов, такие как MS Security Copilot или Google PaLM2, скорее всего, будут лидировать и предоставлять предварительно обученные модели для небольших разработчиков, которые те смогут адаптировать и внедрять в свои приложения, — говорит он. — Но, возможно, лучше всего использовать LLM в качестве человеко-машинного интерфейса, а реальную работу выполнять с помощью структурированных аналитических моделей, настроенных на среду заказчика».

Обнаружение интернет-угроз

Как уже говорилось, такие инструменты, как ChatGPT, могут использоваться субъектами угроз для поиска и эксплуатации уязвимостей веб-сайтов. С другой стороны, LLM также используются для поиска и устранения недостатков безопасности в Интернете.

«Если машинное обучение часто встречается в продуктах, связанных с оповещением или анализом, таких как SIEM и EDR, то взлет LLM произошел совсем недавно, и отрасль только начинает их изучать, — говорит Том Маквей, старший архитектор решений компании Menlo Security. — ИИ можно будет использовать для обнаружения и устранения угроз множеством способов, некоторые из которых мы еще даже не придумали, поскольку это еще только начало».

По его словам, для обнаружения вредоносных сайтов, проверяющий, была ли та или иная страница создана человеком или ИИ, потребуется очень мощный продукт. «Без этого Интернет может превратиться в подобие Дикого Запада, как это было на заре его существования, — считает Маквей. — Использование ИИ для омологирования и структурирования поможет нам защититься от тех типов угроз, которые могут генерироваться с использованием LLM».

Борьба с атаками на базе ИИ

Когда речь идет о том, чтобы сдержать основанные на ИИ кибератаки, ключевую роль здесь играет проактивная система анализа угроз. Ее эффективности можно достичь благодаря сочетанию разнообразных данных о поведении сети и контекста при обработке таких данных.

«Во время недавнего запуска проекта защиты от вымогателей я воочию убедился в огромном потенциале ИИ в борьбе с постоянно развивающейся тактикой такого ПО, — рассказывает Арон Бранд, технический директор компании CTERA. — Успех этого проекта, с моей точки зрения, как человека, принимавшего непосредственное участие в его разработке, зависел от двух основных составляющих. Во-первых, очень важна целостность и глубина имеющихся данных. Речь идет не только о накоплении огромного количества данных, но и об обеспечении их разнообразия и богатства. Подвергая алгоритмы МО широкому спектру реальных атак и сопоставляя их с обычными действиями пользователей, мы смогли сформировать решение, способное выявлять как известные, так и возникающие угрозы. Во-вторых, решающее значение имел способ обработки и представления этих данных. В основе нашего подхода лежал процесс преобразования исходных данных в значимые атрибуты — feature-engineering. Для ИИ важно не просто видеть данные, а улавливать саму природу атаки, понимать тонкие различия между вредоносными и доброкачественными действиями».