«Машинное разобучение» (machine unlearning) позволяет моделям искусственного интеллекта «забывать» отдельные фрагменты учебной информации без оказания негативного влияния на их производительность, сообщает портал The New Stack.

Если вы чему-то научились, забыть это будет невероятно сложно. Как вы понимаете, то же самое относится и к машинам, особенно к большим языковым моделям (LLM), которые обучаются на миллиардах параметров. В эпоху, когда мощь LLM в обработке языка или создании жутко реальных изображений становится все более очевидной, список нерешенных этических вопросов продолжает расширяться. На OpenAI подали в суд за использование защищенных авторским правом новостных статей для обучения своей модели ИИ, а художники обвиняют технологические компании в незаконном использовании их произведений искусства в качестве обучающих данных без их разрешения.

Современное состояние развития ИИ, безусловно, представляет собой этическое минное поле, что привело к недавнему всплеску интереса к так называемому «машинному разобучению».

«Как известно, модели машинного обучения (MО), такие как ChatGPT, обучаются на огромных массивах данных, — поясняет Мегдад Курманджи, научный сотрудник по МО и системам данных в Университете Уорика. — Машинное разобучение заключается в том, чтобы заставить обученную модель „забыть“ определенные части этих данных. Эта концепция имеет несколько применений. Например, она может помочь защитить частную жизнь, позволив людям реализовать свое „право на забвение“ в эпоху ИИ. Представьте себе сценарий, в котором лицо знаменитости, использованное без разрешения в системе распознавания лиц, может быть удалено из памяти модели. Кроме того, разобучение может помочь в защите авторских прав и интеллектуальной собственности, о чем свидетельствуют недавние судебные процессы с участием моделей чатботов, например, иск The New York Times к OpenAI. И наконец, разобучение может помочь устранить предвзятость в MО-моделях, направляя нас к более надежным системам ИИ».

Почему машинное разобучение важно — и почему его трудно осуществить

С момента своего первого упоминания в статье 2015 г. эта все более важная область исследований ИИ нацелена на разработку методов, которые позволят моделям ИИ эффективно «забывать» выбранные фрагменты обучающей информации без негативного влияния на их производительность — и, что самое важное, без необходимости переучивать их с нуля, что может быть дорогостоящим и трудоемким.

Но выборочное удаление данных из модели ИИ не так просто осуществить, как удаление файла с жесткого диска компьютера. Многие модели функционируют как необъяснимые и сложные «черные ящики», что делает машинное разобучение столь же нереальным, как удаление ингредиента из уже испеченного торта.

Тем не менее, подобная функция «разобучения» будет становиться все более важной по мере развития этических соображений и правил, связанных с ИИ, особенно применительно к вопросам безопасности или конфиденциальности, проблемам вредных предубеждениях, устаревшей или ложной информации или небезопасного контента.

В связи с этим машинное разобучение может помочь ИИ в достижении будущих целей по обеспечению конфиденциальности данных, справедливости и соответствия нормативным требованиям, а также поможет смягчить проблему концептуального дрейфа в моделях, когда базовые закономерности в данных могут меняться со временем, что приводит к менее точным прогнозам.

Типы машинного разобучения

В целом в области машинного разобучения есть два подхода: точное разобучение и приблизительное разобучение.

Точное разобучение. Этот подход также называют идеальным разобучением, он подразумевает повторное обучение модели ИИ с нуля, но без данных, которые необходимо исключить. Преимущество этого подхода в том, что он гарантирует, что удаление определенных точек данных не повредит производительности модели, а недостаток в том, что он часто требует значительных вычислительных ресурсов и лучше всего подходит для не слишком сложных моделей ИИ.

Примеры точного разобучения включают такие методы, как RNN (reverse nearest neighbors, обратный подсчет ближайших соседей), в котором удаление точки данных компенсируется путем корректировки других точек данных, расположенных рядом с ней. KNN (k-nearest neighbors, метод k-ближайших соседей) — это похожая техника, но она удаляет точки данных, а не корректирует их, основываясь на их близости к целевой точке данных.

Другой подход к точному разобучению заключается в разделении набора данных на два отдельных подмножества, а затем в обучении двух частичных моделей, которые впоследствии могут быть объединены в процессе, известном как шардинг. Если необходимо исключить определенную точку данных из набора, этот конкретный набор данных можно изменить и использовать для повторного обучения частичной модели перед повторным шардингом.

Приближенное разобучение. Также известное как ограниченное или сертифицированное разобучение, оно направлено на минимизацию — а не на полное устранение — влияния забываемых данных до приемлемого уровня. Методы приблизительного разобучения могут быть предпочтительны в тех случаях, когда существуют ограничения на вычислительные ресурсы и стоимость хранения или если требуется более гибкое решение. Их недостатком является то, что они не полностью удаляют все следы забываемых данных и может быть трудно проверить или доказать эффективность процесса разобучения.

Одним из примеров приближенного разобучения является метод LOF (local outlier factor, локальный уровень выброса), который позволяет выявить и исключить из набора данных выпадающие точки, чтобы повысить эффективность модели.

Аналогичным образом, алгоритмы типа IF (isolation forest, изоляционный лес) могут использоваться для создания деревьев решений со случайной выборкой данных, которые обрабатываются на основе случайно выбранных признаков с целью оценки любых очевидных аномалий, которые затем могут быть отброшены.

По сравнению с точными методами разобучения, эти приближенные подходы легче адаптировать для больших моделей, таких как LLM.

Панацеи от разобучения пока нет

В настоящее время не существует универсального решения, которое могло бы решать различные задачи машинного разобучения, хотя исследователи работают над созданием более универсального инструмента.

Так, Курманджи и команда из Университета Уорика и Google DeepMind создали инструмент под названием SCRUB, который потенциально может решить широкий спектр проблем, начиная от устранения предвзятости, защиты конфиденциальности пользователей и заканчивая устранением путаницы в моделях из-за неверно подобранных данных.

«SCRUB разработан на основе МО-методологии, известной как „учитель-ученик“, — говорит Курманджи. — Вот как это работает: предварительно обученная модель („учитель“) направляет обучение новой модели („ученик“). SCRUB развивает эту концепцию. Во время обучения новой модели SCRUB заставляет ее „не подчиняться“ модели-учителю для тех данных, которые мы хотим удалить, и „подчиняться“ для остальных. Это взаимодействие управляется путем минимизации или максимизации меры сходства между выходными данными моделей. Однако SCRUB иногда может слишком забыть точку данных, что делает ее заметной. Именно здесь на помощь приходит алгоритм SCRUB+R, тонко настраивающий процесс забывания, чтобы контролировать степень разобучения».

В области машинного разобучения еще много проблем, будь то отсутствие стандартных оценочных показателей или потенциальные проблемы с совместимостью и масштабируемостью. Но по мере появления на горизонте все более крупных и сложных моделей ИИ понятие машинного разобучения будет становиться все более неотъемлемой частью процесса. Возможно, это приведет к тому, что ИИ-специалисты будут более тесно сотрудничать с профессионалами в области права, конфиденциальности данных и этики, чтобы лучше определить, как могут выглядеть будущие ответственные методы и инструменты ИИ.