Сергей Бобровский

 

Семейки монстров

Хотя официальной датой рождения теории искусственного выживания считается, как уже говорилось, год 1987, попытки создания автономных существ в рамках исследований по искусственному интеллекту (ИИ) неоднократно предпринимались еще лет тридцать назад.

В 60-х годах ряд фундаментальных концепций теории ИИ разработал советский математик М. Л. Цетлин. Он не любил наукообразные выражения и одну из первых своих решенных задач ИИ называл “задачей о поведении маленького животного в большом мире”. Он доказал, что адаптация технического устройства к любой неизвестной стационарной среде с неизменяемым соотношением вероятностей проявления хорошего и плохого описывается элементарными схемами автоматов с линейной тактикой, крайне просто реализуемых технически. Оппоненты Цетлина заявляли, что наш мир не стационарен, но талант Цетлина и его учеников выразился в создании вероятностных автоматов с переменной структурой, которые были способны вести себя целесообразно в любой динамической среде, а в ряде случаев действовали вообще оптимально.

Затем Цетлин рассмотрел поведение целых коллективов адаптирующихся автоматов. В частности, он исследовал такую социальную задачу, как “общая касса”. Если имеется несколько “кормушек” с разным запасом “пищи”, а число автоматов превосходит число кормушек, возникает известное противоречие - каждый индивид старается урвать как можно больше еды в первую очередь для себя, занимая самые объемные кормушки, в результате чего некоторые автоматы остаются “голодными”, а “государство” (хозяин кормушек), радеющее о своих подданных, стремится, чтобы было потреблено как можно больше съестного из всех кормушек, но при этом снижается максимальный выигрыш автоматов. Здесь и возникает проблема, как методом кнута и пряника распределять автоматы по кормушкам. Оказалось, что поведение автоматов сильно зависит от так называемого фактора инерционности, своего рода глубины памяти автомата, позволяющей ему сохранять выбранное действие даже при получении сигнала наказания. При низком уровне этого качества не удавалось добиться оптимального распределения как “государству”, так и каждому “индивиду”. Цетлин назвал это “вредом уравниловки при низком уровне сознательности”.

Затем автоматам были добавлены ранги рефлексии (возможность рефлексивного поведения), в результате чего они стали пытаться прогнозировать поведение других автоматов. Это происходило так: автомат анализировал общее состояние окружающей среды, количество пищи в кормушках и предполагал, что остальные автоматы имеют ранг рефлексии, на единицу меньший, чем у него (т. е. они его глупее). Нулевой ранг рефлексии означал, что автомат вообще не анализирует возможные действия других, а действует лишь на основании информации о количестве еды в кормушках, т. е. поступает как неразумное животное. После анализа возможных действий других автоматов автомат с более высоким уровнем рефлексии выбирал для себя оптимальную кормушку, где он мог получить максимальное количество пищи. В коллективах с большим числом автоматов с рангом N и небольшим числом “умников” с рангом рефлексии N+1 последние добивались заметно большего индивидуального выигрыша, чем “глупцы”, но самое интересное, что и общее поведение коллектива становилось более рациональным.

В 70-х годах в Массачусетском институте в отделе проблем машинного зрения была создана электронная самодвижущаяся тележка с автономным двигателем, телеглазом, системой распознавания образов и аккумулятором, при понижении уровня заряженности которого телеглаз начинал сканировать стены в поисках электрической розетки. При ее нахождении и правильном распознавании робот самостоятельно вставлял в нее штепсель для подзарядки и затем продолжал путешествие. Его передвижение в принципе было случайным и бесцельным - исследовались в первую очередь возможности технологий распознавания и автономного выживания. Если робот запутывался в сложных лабиринтах здания и не мог найти розетку, то он “умирал”, и его надо было разыскивать и подзаряжать вручную. Этого робота обычно пускали в путешествие без надзора, и рекорд выживания был равен 36 часам. Один из сотрудников института, незнакомый с этим проектом, позже рассказывал своим коллегам историю, которую он долго не мог забыть. “Сижу я в лаборатории, как вдруг в открытую дверь въезжает тележка, не обращая на меня никакого внимания, вращает телекамерой, подъезжает к розетке, вставляет в нее штепсель, через некоторое время вынимает его и уезжает”.

Искусственная жизнь продолжается: задача -выжить

Под руководством Н. М. Амосова, известного нейрохирурга, Институт кибернетики АН УССР в 80-х годах разработал систему моделирования процессов, проходящих в мозгу человека. Была создана так называемая теория М-автоматов. М-автоматы строятся на основе М-сетей, узлы которых соответствуют корковым информационным моделям человека. Между этими моделями устанавливаются связи, аналогичные реальным семантическим связям между нейронными ансамблями. Существование М-автомата с некоторой структурой М-сети в определенной обстановке, моделирующей реальный физический мир, вызывает процессы возбуждения узлов этой сети, которые распространяются по сети дальше, складываясь в причудливых комбинациях и вызывая те или иные “мысли” - сильные возбуждения конкретных узлов, а также определенные действия, соответствующие узлам сети.

Был создан ряд компьютерных моделей, функционировавших в двухмерном виртуальном мире. Этот мир состоял из распределенных в клетках карты статических объектов, идентифицировавшихся как “пища” (положительное воздействие), “зверь” (сильно отрицательное воздействие) и “лес” (слабо отрицательное воздействие). Сама М-сеть состояла из 90 моделей - “пища”, “опасность”, “любопытство”, “зверь встречается часто”, “гнев”, “страх”, “удовольствие”, желания “действовать” - ”не действовать”, “нападать”, “убегать”, интегральных оценок состояния “приятно” и “неприятно” и др.

Значения связей между моделями существенно сказывались на поведении автомата (его назвали РЭМ). Путем многочисленных экспериментов был выбран специальный вариант “норма”, который, по мнению его создателей, наиболее полно соответствовал реальным процессам мышления живых существ. С этой моделью был проведен ряд экспериментов в различных средах, где автомату ставилась задача добраться до нужной точки карты через лес, изобилующий пищей и зверями, предварительно спланировав свои действия. В целом задачи, ставившиеся создателями РЭМа, оказались выполненными. На относительно простой модели было выяснено, что настройка параметров М-сети не очень сложна, так как допускает их варьирование в достаточно широких диапазонах. При этом менялся лишь “характер” автомата - он становился осторожным, трусливым, агрессивным и т. п.

Позже был создан более сложный автомат МОД с элементами самообучения и самоорганизации. Этот автомат на основании неполной информации о среде накапливал опыт и в дальнейшем улучшал свое поведение. Модель окружающей среды была значительно усложнена. Во-первых, в ней стало три типа зверей - очень страшный, просто страшный и страшный, но вкусный. Появилось два типа деревьев - одно из них было съедобно, а другое воспринималось как труднопреодолимая помеха. Был добавлен объект “убежище”, в котором МОД мог прятаться. Принципиально новой стала возможность активно воздействовать на среду - например, рыть убежища, нести пищу с собой, нападать и съедать слабых животных и т. п. Для большего подобия реальному миру в модели были введены изменяющиеся по периодическим законам параметры “светло” и “тепло”, а также такие модели М-сети, как “усталость”, накапливающаяся со временем и зависящая от активности действий, но снижающаяся до нуля после выполнения действия “спать”, и “голод”, также медленно усиливающийся со временем. В М-сеть МОДа ввели базовые связи, соответствующие безусловным инстинктам самосохранения типа “избегать опасности”, “приближаться к пище” и т. д. Автомат получил возможность “ощущать” боль, “чувствовать” недовольство, гнев, уверенность, радость и еще ряд других эмоций. Затем началась работа по настройке параметров автомата и его первичному обучению. Целью настройки было приблизить процесс обучения автомата к процессу обучения высших существ, которые обычно понимают, что от них требуется, с третьего - пятого раза. Затем контрольные эксперименты с автоматом и большой группой людей показали практически полную идентичность кривых обучения автомата и человека на ряде стандартных тестовых примеров.

С отлаженной моделью были проведены многочисленные эксперименты в различных средах, как нейтральных, так и изобилующих положительными или отрицательными объектами. Создатели ставили задачу достижения соответствия внешнего поведения МОДа реально-возможному и корректности процессов “мышления” автомата и его самообучения, что и было успешно решено.

Кроме того, М-сети явились идеальным инструментом для моделирования трудно формализуемых характеристик живых существ - чувств, условных рефлексов и т. п. А отлаженные алгоритмы самообучения сделали М-сеть одним из наиболее эффективных инструментов для качественного исследования человеческого поведения. По отрывочным сведениям, к концу 80-х годов, коллектив Николая Амосова работал над алгоритмами имитации работы той части мозга человека, которая отвечает за поведенческие реакции. Рассматривалось поведение больших групп таких моделей с целью анализа различных социальных процессов и способов влияния на них.

На основе амосовской теории М-автоматов в АН УССР была создана “разумная” самоходная трехколесная тележка ТАИР. В недрах ее искусственного мозга, работа которого моделировалась электронной схемой, были заложены такие понятия, как “местонахождение цели”, “препятствие”, “дискомфорт”, “удаление от цели”, “двигатель перегружен”, “опасность” и т. п. Переднее колесо управлялось самой тележкой, на ней же был установлен автономный аккумулятор с электромотором и множество датчиков: контроля нагрузки на двигатель, наклона, вибрации, контакта, а также локатор, дальномер и таймер. Вся эта информация обобщалась в электронном мозгу робота и поступала в блок управления движением, который и осуществлял непосредственное маневрирование.

ТАИР выпускали “на волю” во дворе украинского Института кибернетики, и она в незнакомой обстановке практически всегда добиралась до цели, каким бы сложным ни был путь до нее. На ровной и гладкой поверхности ТАИР ускоряла свое движение, на неровных участках или подъемах сбавляла скорость, обходила препятствия, достаточно уверенно выбираясь из тупиков. За ТАИР несколько раз гонялась кошка, принимая самоходную тележку за потенциальную жертву, и переворачивала ее. После нескольких наглядных “уроков” ТАИР стала классифицировать кошку как “опасность” и начинала убегать от нее.

Большой интерес к технологиям ИЖ проявляют фирмы - разработчики компьютерных игр. Им требуется моделировать близкое к реальному поведение игровых персонажей - солдат, рабочих, монстров и т. п. В ролевых играх чаще всего применяется система правил AD&D, занимающая десятки томов. С помощью сложной целочисленной системы подсчета очков удается имитировать множество нюансов поведения и схваток в виртуальном фэнтэзи-мире. AD&D не определяет поведение конкретных объектов, но она формально описывает внутреннюю структуру мира, в котором эти объекты могут существовать, жить и развиваться почти как в реальной жизни.

Продолжение следует

Версия для печати