Одна из наиболее распространенных ошибок при применении искусственного интеллекта — слепо полагаться на исторические данные для прогнозирования будущих ситуаций. CTO и основатель Leadspace Амнон Мисхор поделился с порталом InformationWeek тремя способами, которые позволят прогнозировать будущие события при помощи моделирования.

Размер выборки всегда играет определенную роль в науке о данных, но бывают случаи, когда риск, время или расходы его ограничивают. К примеру, у ракеты есть только один шанс на успешный запуск, тестирование столь необходимой вакцины занимает конкретный отрезок времени, стартап находится на ранней стадии развития или B2B-компания может работать только с несколькими точками данных о клиентах. Как выяснилось, в ситуациях, когда данных мало, компании либо вообще не полагаются на науку о данных, либо понимают ее неправильно.

Слепо полагаться на исторические данные для прогнозирования будущих ситуаций я называю «предположением, что прошлое — это будущее». Одним из характерных примеров является ситуация, когда мы предполагаем, что модель, которая так хорошо работала для нас на предыдущих рынках, будет так же «волшебно» работать для запуска продуктов на новом рынке. Проблема в том, что новый будущий рынок полностью отличается от старого, в результате чего анализ оставляет нас с ошибочными суждениями, неверными прогнозами и неудовлетворительными результатами бизнеса. Предположение, что прошлое — это будущее, ошибочно. Ниже приводятся три способа более эффективного применения ИИ к небольшим наборам данных.

1. Задействуйте внешние данные. Тем, кто полагается на исторические данные, вместо этого я рекомендую воспользоваться внешними данными и применить моделирование по аналогии (look-alike modeling). Мы зависим от него больше, чем когда-либо, что связано с развитием рекомендательных систем, используемых Netflix, Amazon, Spotify и др. Даже если вы совершили всего одну или две покупки на Amazon, у нее есть так много информации о товарах, которые люди покупают (например, внешние данные), что она может довольно точно спрогнозировать вашу следующую покупку.

Аналогичным образом, допустим, вы являетесь B2B-компанией, пытающейся найти новых клиентов. Как вариант, вы можете составить «глубокий профиль» потенциальных клиентов на основе внешних данных, чтобы применить методы моделирования по принципу схожести поведения. Даже имея всего несколько положительных примеров для работы, этот процесс может многое сделать для вашей стратегии по выходу на рынок.

2. Подключите короткие итерации. Позиция «прошлое — это будущее» ограничивает нашу креативность и инновации. Если возможно, создайте собственную испытательную среду, где вы сможете ввести больше переменных и результатов, которые не использовались в прошлом, и быстро провести несколько испытаний (например, A/B-тестирование), что позволит получить необходимые уроки. Такой подход хорошо работает в маркетинговых кампаниях, когда для получения обратной связи по конверсии лидов не нужно ждать окончания длительного цикла продаж. Проводя короткие итерации проб и ошибок в условиях, когда можно быстро получить обратную связь, вы сможете извлечь больше информации из небольших наборов данных, улучшить моделирование и творческий подход.

3. Привнесите семантику с помощью человеческого опыта. Когда у вас меньше данных, но много переменных, вы можете столкнуться с проблемой слишком тонкого разделения данных. Представьте себе анализ онлайн-покупателя, который приобрел подгузники, бутылочки и предметы интерьера для детской. Фокусируясь на этих данных, вы упускаете из виду важную закономерность — у этого человека может быть ребенок. Добиться лучших результатов при меньшем количестве точек данных позволяют внешние знания и человеческий опыт — семантическое моделирование (или контекст вокруг переменных) и ускорение машинного обучения (МО).

Хитрость в том, чтобы сделать это правильно, для чего требуется создать сильную таксономию (также известную как онтология). Например, компании по производству медицинского оборудования, учитывая миллионы артикулов в ее каталоге, крайне важно, чтобы специалисты разработали таксономию для понимания и описания семейств продуктов, что позволяет понять поведенческие модели клиентов и улучшить прогнозное моделирование.

Прежде чем попасть в мир корпоративных технологий, я много лет работал в сфере борьбы с терроризмом, где мы применяли ИИ и МО, в частности, для составления профилей и выявления потенциальных террористов. Моделирование прогнозов для борьбы с терроризмом — это особенно сложная задача, потому что всегда найдется новый способ нападения. Как следствие, предположение о том, что если что-то сработало в прошлом, то сработает и в будущем, для нас, специалистов по данным, было заведомо ложным. Нам постоянно приходилось думать о новых способах применения МО к большим и малым массивам данных, чтобы выявлять террористов до совершения ими преступлений. Это было нашей целью.

Возможно, именно поэтому я так увлечен тем, чтобы помочь компаниям разорвать порочный круг использования исторических данных в сценариях, где они не подходят. Они не приведут вас к новому мышлению, творчеству или инновациям в бизнесе. Подобно борьбе с терроризмом, B2B-компании, неспособные постоянно обновлять свою стратегию обработки данных, не смогут предотвратить гибель нового продукта и, в конечном итоге, бизнеса.