Обычно при внедрении искусственного интеллекта слишком много внимания уделяется созданию моделей и команд специалистов по анализу данных (data scientists), а не операционализации этих моделей для достижения конечного результата. О том, как найти правильный баланс, на портале InformationWeek рассказывает Вид Джайн, генеральный директор и основатель Wallaroo Labs.
Предприятия вливают огромные деньги в ИИ, основываясь на его обещаниях повысить уровень автоматизации, персонализировать клиентский опыт в масштабах компании или предоставить более точные прогнозы для повышения доходов или оптимизации операционных расходов. По мере роста ожиданий от этих проектов организации нанимают все больше специалистов по анализу данных для построения ИИ-моделей. Однако до сих пор остается огромный разрыв между потенциалом ИИ и результатами: лишь около 10% инвестиций в ИИ приносят значительный эффект.
Десять лет назад, когда я работал в одном из ведущих инвестиционных банков в сфере автоматизированной биржевой торговли, мы увидели, что найти закономерности в данных и построить модели (они же алгоритмы) — это самая простая часть по сравнению с операционализацией моделей. Самое сложное — быстро развернуть модели на живых рыночных данных, запустить их эффективно, чтобы затраты на вычисления не перевешивали инвестиционные выгоды, а затем измерить их производительность, чтобы можно было немедленно отключить все плохие торговые алгоритмы, постоянно итерируя и улучшая лучшие алгоритмы (генерирующие прибыль). Это то, что я называю «последней милей машинного обучения».
Недостаточная рентабельность инвестиций: проблема последней мили
Сегодня многие руководители направлений бизнеса и директора по данным и аналитике столкнулись с тем, что они достигли той точки, когда наем большего количества специалистов по анализу данных не приносит ценности бизнесу. Да, такие специалисты необходимы для разработки и совершенствования алгоритмов МО. Однако когда им начинают задавать вопросы, чтобы выявить препятствия для извлечения ценности из их ИИ, они быстро понимают, что их узкое место находится на последней миле, после первоначальной разработки модели.
По мере того, как команды ИИ переходят от разработки к производству, специалистов по анализу данных просят тратить все больше и больше времени на решение вопросов, связанных с «инфраструктурой». Кроме того, у них нет инструментов для устранения неполадок в производственных моделях или ответов на вопросы бизнеса о производительности моделей, поэтому они тратят все больше времени на специальные запросы для сбора и агрегирования производственных данных, чтобы иметь возможность провести хотя бы базовый анализ производственных моделей. В результате на запуск моделей в производство уходят дни и недели (а для больших и сложных наборов данных — даже месяцы), команды специалистов по анализу данных работают вслепую в производственной среде, и, хотя команды растут, они не занимаются тем, в чем действительно хороши.
Специалисты по анализу данных прекрасно справляются с преобразованием данных в модели, которые помогают решать бизнес-задачи и принимать бизнес-решения. Но опыт и навыки, необходимые для создания отличных моделей, не совпадают с навыками, необходимыми для внедрения этих моделей в реальный мир с помощью готового к производству кода, а также для постоянного мониторинга и обновления.
На арену выходят МО-инженеры
Инженеры машинного обучения отвечают за интеграцию инструментов и фреймворков, чтобы обеспечить согласованную работу данных, конвейеров инженерии данных и ключевой инфраструктуры — для производственной эксплуатации моделей MО в масштабе. Добавление этих инженеров в команды помогает специалистам по анализу данных вернуть свой фокус на разработку моделей и управление ими и облегчает некоторые проблемы, с которыми сталкиваются команды ИИ.
Но даже такой подход не избавляет предприятия от трех основным проблем при масштабировании ИИ:
- Невозможность нанять МО-инженеров достаточно быстро. Даже если МО-инженеры берут на себя многие технические вопросы, масштабирование ИИ означает масштабирование пула инженеров, которое оказывается малореализуемым. Спрос на МО-инженеров очень вырос: число вакансий здесь растет в 30 раз быстрее, чем на ИТ-сервисные позиции в целом. Вместо того чтобы ждать месяцы или даже годы, пока заполнятся эти вакансии, командам ИИ необходимо найти способ поддерживать больше моделей МО и сценариев использования без линейного увеличения численности МО-инженеров. Но это приводит ко второму узкому месту...
- Отсутствие повторяемого, масштабируемого процесса развертывания моделей независимо от того, где и как они были построены. Реальность современной экосистемы корпоративных данных такова, что различные бизнес-подразделения используют различные платформы данных, основываясь требованиях к данным и технических требованиях для своих сценариев использования (например, команде по продуктам может потребоваться поддержка потоковых данных, в то время как финансовому отделу нужен простой интерфейс запросов для нетехнических пользователей). Кроме того, наука о данных — это функция, которая часто рассредоточена в самих бизнес-подразделениях, а не является централизованной практикой. Каждая из этих различных команд, занимающихся наукой о данных, в свою очередь, обычно имеет свою собственную предпочтительную схему обучения моделей, основанную на целевых сценариях использования — это означает, что универсальная схема обучения для всего предприятия может оказаться неприемлемой.
- Слишком большое внимание уделяется построению моделей вместо мониторинга и улучшения их производительности. Подобно тому, как инженеры-разработчики ПО должны следить за своим кодом в производстве, МО-инженеры должны следить за здоровьем и производительностью своей инфраструктуры и своих моделей после развертывания в производстве и за работой с реальными данными, чтобы развивать и масштабировать свои инициативы в области ИИ и MО.
Чтобы действительно вывести ИИ на новый уровень, современным предприятиям необходимо сосредоточиться на людях и инструментах, способных обеспечить производственную эксплуатацию моделей МО в масштабе. Это означает, что нужно переключить внимание с постоянного расширения команд специалистов по анализу данных и внимательно посмотреть, где находятся истинные узкие места. Только тогда организации начнут видеть ценность для бизнеса, которую они изначально хотели достичь с помощью своих МО-проектов.