Вы наконец-то запустили в производство системы машинного обучения и искусственного интеллекта на своем предприятии, и ваши топ-менеджеры ожидают результатов. Остался один вопрос: достаточно ли у вас качественных данных для обучения алгоритмов?
Теперь, когда предприятия начинают осуществлять эти инициативы, поиск данных для вечно голодных до них алгоритмов будет постоянным пунктом в списке дел. Однако на пути к получению доступа к необходимым данным могут возникнуть препятствия. Существует ограниченное количество данных, которые может собрать и очистить ваше собственное предприятие. Новые и существующие правила обеспечения конфиденциальности могут ограничивать сбор и хранение данных. А некоторые события настолько новы, что для обучения алгоритма не существует достаточного количества данных (или их вообще нет) — примером может служить пандемия, которая привела к кризису в цепочках поставок.
Одно из решений всех этих проблем — синтетические данные. Об перспективах их применения порталу InformationWeek рассказал аналитик Forrester Роуэн Курран.
Синтетические данные — что это такое?
Согласно Forrester, синтетические данные — это обучающие данные любого типа (структурированные, транзакционные, изображения, аудио и др.), которые дублируют, имитируют или экстраполируют реальный мир, но не имеют с ним прямой связи, особенно в сценариях, где реальные данные недоступны, не могут быть использованы или строго регламентированы.
«Это то, что, на мой взгляд, станет очень интересной и важной частью ландшафта ИИ в будущем», — говорит Курран. Он приводит несколько сценариев использования, раскрывающих потенциал синтетических данных.
Например, один из сценариев был разработан, чтобы помочь автопроизводителям собирать данные компьютерного зрения о том, как выглядят сонные водители. Это делается для соответствия системам мониторинга водителей, которые могут стать нормативным требованием в Европе и США. Вот два варианта того, как будут собираться эти данные. В плане А компания нанимает актеров из разных демографических групп, чтобы они симулировали усталость, рассеянность и сонливость. Но это дорогостоящий и длительный процесс, тогда как организациям, как правило, нужно быстро получить большое количество данных. План Б предусматривает сотрудничество с компанией, занимающейся синтетическими данными, для моделирования изображений людей, выглядящих уставшими, утомленными, сонными или отвлеченными. Этот процесс позволяет получить гораздо больший набор качественных изображений для обучения.
По словам Куррана, другой сценарий применения синтетических данных может помочь, скажем, кадровой службе крупной международной компании. Например, сотрудник отдела кадров может обучить приложение, используя свои голос и видеоизображение. Затем в сгенерированную ИИ голосовую и видеосимуляцию кадровика вводятся текстовые сценарии. После этого приложение создает уникальное видео для каждого уникального сценария. Это полезно для HR-организации, которой нужно сделать видео для сотрудников в 100+ разных странах, персонализированные с учетом их обычаев и языков. Запись каждого видео отдельно заняла бы огромное количество времени. Но обучение приложения и последующее создание множества видеороликов с помощью скриптов может ускорить процесс и сократить необходимые ресурсы.
Другие технологии ИИ, о которых полезно знать
Синтетические данные — одна из нескольких технологий ИИ, которые Forrester называет не сильно известными, но способными открыть значительные новые возможности. В список также входят сети-трансформеры, обучение с подкреплением, федеративное обучение и причинно-следственный анализ.
Курран объясняет, что сети-трансформеры используют глубокое обучение для точного резюмирования больших массивов текста. «Они позволяют таким людям, как я, создавать довольно лаконичные слайды на основе написанного мной исследования, — говорит он. — На данный момент я уже использую изображения, сгенерированные ИИ, в 90% своих презентаций».
Та же базовая технология сетей-трансформеров и большие языковые модели могут быть использованы для генерации кода корпоративных приложений, говорит Курран.
Согласно Forrester, обучение с подкреплением позволяет тестировать множество действий в смоделированных средах, что дает возможность проводить большое количество микроэкспериментов, которые затем могут быть использованы для построения моделей для оптимизации целей или ограничений. Например, говорит Курран, вы являетесь крупным производителем и получаете предупреждение о том, что часть вашего оборудования может выйти из строя и должна быть остановлена для технического обслуживания, но у вас как раз период критической пиковой загрузки. Такое моделирование позволяет вам учесть применительно к вашему большому заказу стоимость остановки производства в пиковый период и другие факторы при принятии решения о том, стоит ли выводить оборудование на техническое обслуживание.
Федеративное обучение — это управляемый процесс объединения моделей, обученных раздельно на отдельных наборах данных, который может использоваться для обмена информацией между устройствами, системами или фирмами для преодоления ограничений конфиденциальности, пропускной способности или вычислительных мощностей.
Причинно-следственный анализ позволяет глубже изучать причинно-следственные связи в данных, что может быть использовано для получения бизнес-инсайтов и предотвращения предвзятости в ситуациях, когда объяснимость может быть столь же важна, как и точность прогнозирования.