В первые годы своего существования искусственный интеллект обучался на основе тех фрагментов реального мира, которые нам удавалось ему предоставить. Улицы с пробками. Датчики на складах. Люди, просматривающие приложения на своих телефонах. Вот и весь его рацион. Предсказуемые входные данные. Но теперь мы находимся на совершенно ином рубеже, где интеллект развивается не только на основе того, что уже существует или известно, но и на основе того, что мы можем создать. Именно здесь синтетические данные незаметно заполняют пробелы, обеспечивая базу для создания сложных систем ИИ, сообщает портал BigDATAwire.
Реальные данные могут лишь перенести вас назад во времени. Это всего лишь стоп-кадр и ничего более. Синтетические данные открывают вам возможности, недоступные для реальности. Они могут создавать редкие сбои, новые модели поведения на рынке, новые научные возможности или целые экосистемы, предназначенные для обучения. Они позволяют разработчикам проектировать системы, напрямую учитывая существующие пробелы. Таким образом, вместо того, чтобы ждать, когда редкие сценарии возникнут естественным образом или находить такие данные в прошлом, команды могут генерировать их по запросу. Это означает, что они могут адаптировать обучающие данные к задачам, которые они хотят решить. Этот переход от данных как ограничения к данным как творческому инструменту обеспечивает более быстрые итерации и открывает новые горизонты для повышения эффективности моделей.
Почему синтетические данные внезапно стали так важны? Простой ответ заключается в том, что ИИ начал упираться в «стеклянный потолок». Реальных данных недостаточно, чтобы охватить все маловероятные крайние случаи или все сценарии, которые мы хотим, чтобы наши модели реализовывали. Синтетические данные позволяют командам напрямую программировать недостающие части. Разработчики могут конструировать ситуации по мере необходимости.
Доцент Стэнфордского университета Эндрю Ын считает, что «синтетические данные — важный инструмент в арсенале ИИ, ориентированного на данные», и что сценарии их использования «выходят за рамки простого этапа предварительной обработки для увеличения набора данных для алгоритма обучения». Он предлагает разработчикам «использовать генерацию синтетических данных как часть замкнутого цикла итеративной разработки машинного обучения».
Этот замкнутый цикл может вскоре стать стандартной моделью разработки. Отраслевые лидеры и аналитики сигнализируют об изменении ситуации. Gartner еще в 2022 г. заявила: «К 2030 г. синтетические данные полностью вытеснят реальные данные в моделях ИИ».
Это направление уже активно используют самые влиятельные игроки в этой области. По словам генерального директора NVIDIA Дженсена Хуанга, «генерация синтетических данных станет одной из важнейших тем в области ИИ в ближайшие пять лет».
Создание синтетических данных — ключ к восполнению пробелов, когда качество или объем данных, необходимых для моделей ИИ, недостаточны, а процесс их создания непрост. За кулисами работает целый стек. Речь идет о системах моделирования, генеративных моделях, таких как генеративно-состязательные сети (GAN) и диффузионные системы, больших языковых моделях (LLM) для текстовых предметных областей. Все это создает виртуальные миры для обучения.
Существуют также слои правил, конструкторы сценариев и системы маркировки, которые делают выходные данные правдоподобными. Валидационные конвейеры проверяют, соответствуют ли сгенерированные данные реальным распределениям и повышается ли производительность там, где это важно. Все больше компаний стремятся объединить все это в платформы, чтобы команды могли генерировать, тестировать, исправлять и восстанавливать данные в рамках одного цикла.
Организации, испытывающие наибольшую растущую потребность в синтетических данных, — это те, которые работают в зонах высокого риска, где фактических данных нет или процесс их поиска неэффективен. Представьте себе полностью автономные автомобили, модели которых не могут просто ждать каждой опасной ситуации в пробке. Врачей, работающих над лекарствами от редких заболеваний, но не имеющих возможности учитывать тысячи таких случаев. Торговые компании, которые не могут ждать подходящего рыночного шока для своих моделей ИИ. Эти команды могут использовать синтетические данные, чтобы извлечь уроки из ситуаций, которые просто недоступны (или нецелесообразны) в реальной жизни.
Этот новый мир синтетических данных поднимает ряд неудобных вопросов. Как определить, что «реалистично», если ваш набор данных берется не из естественного мира? Как предотвратить проникновение скрытых предубеждений в созданный вами мир? Как можно доверять модели, которая ни разу не столкнулась с реальным миром во время обучения? Это не мелочи. Эти проблемы находятся в центре вопросов, возникающих в сфере автономного вождения, разработки лекарств, финансов и везде, где ИИ выходит на территорию высоких ставок.
Несмотря на некоторые ключевые проблемы и опасения, импульс к использованию синтетических данных продолжает нарастать. Tesla проезжает бесчисленные километры в режиме симуляции. Meta (компания признана экстремистской и запрещена в РФ) продолжает экспериментировать с синтетическими аватарами. DeepMind использует искусственные среды для исследования новых научных концепций. Все это больше не второстепенно, а является неотъемлемой частью их амбиций в области ИИ. Поскольку инструменты становятся точнее, а валидация улучшается, вопрос о легитимности синтетических данных уже не стоит. Более глубокий вопрос заключается в том, насколько хорошо любая компания может их использовать и как скоро она сможет перенести это на реальный прогресс.































