По мере ускорения внедрения искусственного интеллекта руководители предприятий сталкиваются со сложностями, связанными с этой мощной технологией, пишет на портале BigDATAwire Бретт Бартон, вице-президент и руководитель глобальной практики ИИ компании Unisys.

В основе ИИ лежат данные, которые питают машину: откуда они берутся, кому принадлежат, какова их надежность — все это влияет на эффективность ИИ. Однако проблемы, связанные с точностью, конфиденциальностью и предвзятостью данных, не позволяют полностью реализовать потенциал ИИ. Согласно недавнему отчету Unisys «The AI Equation: 2024 AI Business Impact Research», руководители компаний по-прежнему с оптимизмом смотрят на перспективы ИИ, но с опаской относятся к его рискам, причем 64% из них обеспокоены предвзятостью и дискриминацией в системах ИИ.

Качественные и непредвзятые данные имеют решающее значение для снижения этих рисков. Но поскольку модели ИИ потребляют данные, генерируемые человеком, с беспрецедентной скоростью, исследователи прогнозируют, что мы можем исчерпать источники реальных данных уже в 2026 г. Именно здесь на помощь приходят синтетические данные. Это искусственно созданные биты информации, которые имитируют реальные наборы данных, сохраняя при этом статистическую целостность. В отличие от анонимизированных данных, синтетические данные не содержат персональной информации, что снижает риски конфиденциальности. Уже сейчас синтетические данные демонстрируют перспективность в плане масштабируемости, снижения погрешности и безопасности.

Во многих случаях реальные данные являются неполными, конфиденциальными или слишком дорогостоящими для получения в больших масштабах. Отрасли, сталкивающиеся со строгим регулированием или работающие с закрытой информацией, часто испытывают трудности с доступом к данным, необходимым для эффективного обучения моделей ИИ. Синтетические данные позволяют обойти эти ограничения, создавая реалистичные, соответствующие нормативным требованиям наборы данных, которые можно адаптировать под конкретные сценарии использования. Это не только ускоряет разработку ИИ, но и гарантирует обучение моделей на разнообразных и качественных исходных данных, что приводит к более точным и этичным результатам.

Как создать синтетические данные

Нельзя создать что-то из ничего. Синтетические данные получают из реальных данных и условий, чтобы создать отдельные объекты данных, и их можно генерировать с помощью различных методов, в том числе:

  • Моделирование на основе правил. Данные создаются с использованием предопределенных правил, формул или логических условий для воспроизведения сценариев реального мира.
  • Статистические методы. Алгоритмы используют распределения и корреляции реальных данных для создания статистически схожих, но неидентичных точек данных.
  • Модели машинного обучения. Продвинутые модели, такие как генеративно-состязательные сети (GAN) и вариативные автокодировщики (VAE), изучают закономерности на основе реальных данных и генерируют новые, реалистичные образцы данных.
  • Агентное моделирование. Моделирование взаимодействия между объектами (например, клиентами, продуктами) позволяет получить синтетические наборы данных, отражающие сложное поведение.

Однако вам все равно нужно участие человека, чтобы проверить реальность полученных результатов. Только профильные эксперты (SME) могут проверить точность моделей и симуляций. Эти люди необходимы для использования синтетических данных. Как правило, эта роль возлагается на распорядителей данных в бизнес-подразделениях, а не на технологические команды. Они обладают глубокими знаниями в предметной области и могут оценить, насколько синтетические данные «соответствуют спецификации» и точно ли они отражают реальные условия. SME следят за тем, чтобы данные действительно отражали то, что должны, обеспечивая их контекстную значимость и практическую ценность.

Ускорение ИИ-инноваций в разных отраслях

Синтетические данные открывают новые возможности в различных отраслях, преодолевая ограничения традиционных источников данных. Они позволяют масштабировать инновации без ущерба для конфиденциальности, безопасности и соблюдения нормативных требований. Такая гибкость открывает перед отраслями новые возможности для решения сложных проблем, совершенствования моделей ИИ и улучшения процесса принятия решений.

В здравоохранении синтетические данные позволяют исследователям генерировать наборы данных, отражающие реальные отраслевые тенденции, что обеспечивает точное ИИ-моделирование без ущерба для конфиденциальности данных пациентов или нарушения строгих правил, таких как HIPAA. Это особенно ценно для изучения редких заболеваний, обучения диагностических моделей и улучшения рекомендаций по лечению.

Аналогичным образом, в сфере финансовых услуг синтетические данные позволяют организациям обучать модели, которые помогают финансовым консультантам направлять клиентов на принятие лучших финансовых решений, таких как стратегические инвестиции или управление счетами, не опираясь при этом на конфиденциальные данные клиентов.

В фармацевтических исследованиях синтетические данные помогают решать такие проблемы, как ограниченные популяции пациентов и медленное их включение в систему путем моделирования контрольных групп, что позволяет исследователям проверять гипотезы и ускорять разработку лекарств, не дожидаясь получения масштабных данных о пациентах.

Создание будущего ИИ с помощью синтетических данных

Предприятия расширяют свои ИИ-инициативы, однако доступ к высококачественным данным остается сложной задачей. Синтетические данные являются мощным решением, однако их эффективность зависит от продуманного применения, тщательной проверки и человеческого надзора для обеспечения точности и соответствия реальным условиям.

Стратегическое использование синтетических данных позволит компаниям полностью раскрыть потенциал ИИ, стимулировать инновации и улучшить процесс принятия решений. Предприятия, интегрирующие синтетические данные в свои стратегии развития ИИ, получат конкурентное преимущество и станут лидерами в создании ответственных, высокопроизводительных систем ИИ, вызывающих доверие и обеспечивающих соблюдение требований.