Реальные данные считаются золотым стандартом для анализа, однако доступ к ним может быть затруднен, они могут быть дорогими в использовании и даже ограничены нормативными требованиями. Именно здесь на помощь приходят синтетические данные. Несмотря на то, что их принято считать низкокачественной заменой, они могут обеспечить реальные операционные преимущества, пишет на портале Datanami Александр Линден, вице-президент по аналитике компании Gartner.

При правильном развертывании лидеры в области данных и аналитики могут использовать синтетические данные для создания более эффективных моделей ИИ, поднимая ИИ-приложения своих организаций на новый уровень. По оценкам Gartner, к 2030 г. синтетические данные затмят реальные данные в широком спектре моделей ИИ.

Использование синтетических данных

Реальные данные, как правило, обеспечивают наилучшие инсайты. Однако они могут быть дорогими, необъективными или недоступными из-за правил конфиденциальности. В этих случаях синтетические данные могут стать эффективной альтернативой или дополнением, поскольку они обеспечивают доступ к более качественным аннотациям, которые могут быть использованы для построения точных и расширяемых моделей ИИ. При правильном сочетании с любыми доступными реальными данными синтетические данные позволят создавать расширенные наборы данных, которые помогут устранить некоторые недостатки, связанные с реальными данными.

Например, организации могут использовать синтетические данные при тестировании новой системы, когда нет реальных данных или когда данные могут быть необъективными. Синтетические данные также полезны для дополнения небольших доступных наборов данных, которые в противном случае могут быть проигнорированы. Кроме того, организации могут применять их, когда реальные наборы данных не могут быть использованы, переданы или перемещены. Таким образом, синтетические данные имеют множество применений.

Синтетические данные и будущее ИИ

Синтетические данные имеют огромное значение для будущего ИИ, поскольку они могут быть использованы для того, чтобы помочь организациям понять потенциал технологии.

Как известно, существует множество применений синтетических данных, включая псевдонимизацию и анонимизацию данных, которые являются обязательными для любой современной команды специалистов в области науки о данных. С помощью синтетических данных они могут вводить информацию в свои модели, а затем получать искусственно сгенерированные данные, которые гораздо ценнее, чем прямое наблюдение.

Синтетические данные также полезны для хакатонов, демонстрации продуктов и создания внутренних прототипов, когда набор данных необходимо воспроизвести с нужными статистическими атрибутами. Например, финансовые учреждения, такие как банки, часто используют синтетические данные при создании мультиагентных симуляций, чтобы лучше понять поведение рынка, улучшить свои кредитные решения или бороться с мошенничеством. Аналогичным образом, розничные компании используют синтетические данные при создании магазинов без кассиров или при анализе демографических характеристик покупателей.

Дополнительным фактором, делающим синтетические данные ценными, является точность, которую они обеспечивают в моделях машинного обучения. Это связано с тем, что реальные данные являются случайными и не учитывают всех влияющих изменений условий или возможных событий. Синтетические данные позволяют решить эту проблему, генерируя данные для еще не встречавшихся условий.

Диапазон применимости синтетических данных делает их важнейшим ускорителем ИИ, поскольку они делают возможным ИИ там, где не хватает реальных данных.

Риски использования синтетических данных

Хотя синтетические данные имеют свои преимущества, они также связаны со значительными рисками и ограничениями.

Например, качество синтетических данных зависит от качества создающей их модели и получаемого набора данных. Поэтому их использование требует дополнительных проверочных шагов, таких как сравнение с аннотированными человеком реальными данными для обеспечения их достоверности.

Кроме того, когда речь идет о конфиденциальности, синтетические данные могут вводить в заблуждение, поскольку они могут приводить к некачественным результатам и не могут быть на 100% защищены от ошибок.

Из-за этих проблем синтетические данные сталкиваются со скептическим отношением пользователей, которое обусловлено тем, что пользователи считают их «неполноценными» или «фальшивыми». По мере расширения их использования у руководителей предприятий могут возникать вопросы об открытости методов, применяемых для генерации данных, особенно когда речь идет о прозрачности и объяснимости.