При запуске ИИ-проекта важно иметь все необходимые ингредиенты, включая четкое понимание проблемы, подходящие данные, необходимые инструменты и готовность сделать все правильно, пишет на портале The New Stack Андреа Мунтяну, менеджер по продуктам MLOps компании Canonical.

После десятилетий экспериментов и инноваций исследователи и практики наконец-то разработали правильный рецепт успешного внедрения ИИ. Теперь, с появлением генеративного ИИ, эта область переживает невиданный ранее взлет. Технология обладает потенциалом для бесчисленного множества сценариев использования, и предприятия стремятся создать свои собственные приложения на базе ИИ.

Как и любой рецепт, запуск успешного проекта ИИ требует определенной подготовки: важно убедиться, что у вас есть все необходимые ингредиенты, нужные инструменты и что вы готовы выполнить все необходимые шаги. Это особенно актуально сейчас, когда организации формулируют измеримые ожидания в отношении ИИ. Согласно PwC «2022 AI Business Survey», 72% респондентов могут оценить и спрогнозировать окупаемость ИИ. Как никогда ранее, заинтересованные стороны понимают как затраты, так и потенциальные выгоды, связанные с ИИ.

Проблема, данные и команда

С чего же начать? Прежде чем приступать к реализации ИИ-проекта, необходимо убедиться, что у вас есть два ключевых ингредиента: четкая проблема, которую нужно решить, и данные, с помощью которых ее можно решить.

Пока у вас не появится ясное понимание проблемы, вы не сможете построить правильное решение. Кроме того, проект машинного обучения невозможен без достаточного количества данных для обучения моделей. Обязательно оцените данные, с которыми вы работаете, — они часто бывают беспорядочными. К распространенным проблемам относятся дубликаты, пропущенные значения и непоследовательный ввод данных.

В связи с этим компании работают над улучшением процессов сбора данных и повышением их качества. Есть отрасли, в которых данные все еще недоступны по разным причинам — будь то недостаточная цифровизация или просто недостаточная доступность.

Следующий шаг — собрать команду для вашего ИИ-проекта. Для некоторых практиков это легче сказать, чем сделать. Многие специалисты по анализу данных начинают свою карьеру в качестве инженеров или статистиков, которые привыкли работать в одиночку. Однако в определенный момент работа в собственном «огороде» становится неэффективной.

Тем не менее в настоящее время многие специалисты по исследованию данных работают изолированно, даже если у них есть возможности для сотрудничества. Например, на предприятии могут быть разные специалисты по обработке данных, работающие в различных подразделениях, например в отделе продаж и в отделе маркетинга, хотя при этом они используют одни и те же наборы данных. Многие задачи можно решать совместно, например очистку данных.

В то же время организациям, которые рассчитывают запустить проекты ИИ в производство, необходимо убедиться, что их команды обладают необходимыми навыками, включая возможности мониторинга и переобучения моделей. У людей есть возможность повышать свою квалификацию: во всем мире все больше программ бакалавриата и магистратуры посвящены науке о данных или машинному обучению.

Правильные модели и правильный инструментарий

ИИ стал популярным во многом благодаря эволюции больших языковых моделей (LLM) — моделей машинного обучения, предназначенных для понимания естественного языка. Широкая популярность ChatGPT, чатбота с LLM, продемонстрировала, что ИИ может быть доступен каждому.

Хотя ChatGPT является самым известным применением LLM, они находят применение и за пределами чатботов, включая такие задачи, как перевод и анализ настроения. Со временем LLM будут решать множество проблем в различных отраслях. А пока можно ожидать, что стартапы будут внедрять сценарии использования с относительно небольшими LLM.

Надо также понимать, что модели машинного обучения должны быть максимально защищены от предвзятости.

Для создания, развертывания, мониторинга и поддержки MО-моделей инженеры и специалисты по исследованию данных используют различные инструменты, такие как Kubeflow, MLFlow, Jupyter Notebooks и Seldon Core. Платформы MО с открытым исходным кодом позволяют разработчикам выполнять весь жизненный цикл МО в рамках одного инструмента.

После запуска системы в производство важно отслеживать и оценивать, как работает ваша инициатива по созданию ИИ продуктового уровня и ее инфраструктура. Вам нужны правильные инструменты для наблюдения за системой и получения предупреждений о сбоях в работе модели или дрейфе данных.

Многие из наиболее часто используемых инструментов для наблюдения доступны с открытым исходным кодом, например Grafana и Prometheus. Команды могут использовать эти инструменты для мониторинга и наблюдения за стеками МО, а также содержащимися в них моделями.

С помощью инструментов наблюдаемости команды могут постоянно улучшать свои модели и быть в курсе связанных с ними затрат. Они покажут команде, на каком этапе жизненного цикла MО возникла проблема, и помогут быстро найти ее решение.

Непрерывное развитие

Недостаточно просто контролировать и поддерживать ИИ-проект. Модели МО нуждаются в постоянном развитии, причем повышение производительности должно происходить за счет новых наборов данных.

Модели МО разрабатываются на основе исторических данных, поэтому со временем они могут устаревать из-за изменений в данных. Это явление называется дрейфом и относится к изменению свойств набора данных, используемого для обучения модели. Обычно это влияет на производительность модели и приводит к снижению ее способности делать точные прогнозы.

Для обнаружения дрейфа разработчики могут использовать модельно-ориентированный подход, при котором выявляется любой дрейф входных данных, или статистические тесты. Эти тесты делятся на три категории: методы последовательного анализа, привычная модель для обнаружения дрейфа и метод распределения времени.

Достаточные вычислительные ресурсы и правильная архитектура

Все описанное выше реализуется при наличии правильных вычислительных ресурсов и правильной архитектуры.

Исторически вычислительная мощность была основным ограничением, сдерживающим развитие ИИ. Когда речь идет об обучении LLM, требуются значительные вычислительные ресурсы, включая GPU или DGX, которые стоят дорого и которые непросто приобрести. В будущем мы можем ожидать, что квантовые вычисления помогут создавать более быстрые, эффективные и точные ИИ-системы.

Также необходимо учитывать, где вы разрабатываете и запускаете свои модели ИИ. Предприятия часто начинают экспериментировать в публичном облаке, где относительно просто начать работу. Однако, когда они готовы перейти к производству или масштабированию проекта, они могут захотеть переехать онпремис из-за таких соображений, как ценовые ограничения. Стратегия гибридного облака предлагает золотую середину, обеспечивая гибкость. А MLOps поможет обеспечить доступ к данным независимо от их местонахождения.

Приборная панель для заинтересованных сторон

Крайне важно не упустить из виду последний компонент успешного ИИ-проекта, поэтому нужно обязательно найти способ продемонстрировать свою модель широкой аудитории.

Помните, что вы должны показать ценность вашего ИИ-проекта заинтересованным сторонам, которые зачастую не имеют технического образования. Создание приборной панели поможет вам рассказать историю о вашем проекте, чтобы лица, принимающие решения в бизнесе, могли быстро понять проблему, которую вы пытаетесь решить. Если они смогут увидеть отклонения и тенденции, которые видите вы, то вы сможете рассчитывать, что ваш проект будет успешным.