Согласно недавнему опросу более 1300 специалистов-практиков в области машинного обучения, качество данных является самой большой проблемой, с которой сталкиваются команды МО при получении обучающих данных, сообщает портал AI Business.
Треть респондентов опроса «Zeitgeist: AI Readiness Report by Scale AI» заявили, что сталкиваются с проблемами качества данных, далее следуют вопросы сбора, анализа, хранения и версионирования. Эти проблемы необходимо решать, поскольку они оказывают значительное последующее влияние на МО-усилия, а команды часто не могут эффективно моделировать без качественных данных, говорится в отчете.
Команды MО заявили, что им трудно разобраться с объемом, сложностью и нехваткой данных. Особую проблему представляют неструктурированные данные. Практики считают, что подбор данных для своих моделей влияет на то, как быстро они могут развернуть свои MО-проекты. Без высококачественных данных команды не могут создавать надежные модели.
К факторам, влияющим на качество данных, относятся разноообразие, объем и шум. По данным опроса, 37% испытывают трудности с поиском разнообразных данных, необходимых для повышения производительности моделей. Те, кто работают с неструктурированными данными, испытывают наибольшие трудности с получением разнообразных данных для повышения производительности модели.
Поскольку большинство данных сегодня являются неструктурированными, команды МО должны иметь стратегию управления ими для повышения качества данных.
Команды МО, работающие с неструктурированными данными, чаще, чем те, кто работает с полуструктурированными или структурированными данными, сталкиваются с недостаточных количеством данных.
Большинство респондентов сообщили о проблемах с обучающими данными, причем наибольшую головную боль вызывает шум данных (67%), за которым следуют смещение данных (47%) и доменные пробелы (47%). Только 9% не сталкивались с подобными проблемами.
В отчете приводятся пять советов по разработке ИИ, ориентированного на данные, от соучредителя Google Brain Эндрю Нг:
- Делайте метки последовательными.
- Используйте консенсус-маркировку для выявления несоответствий.
- Разъясните инструкции по маркировке.
- Отбросьте зашумленные примеры (потому что больше данных не всегда лучше).
- Проведите анализ ошибок, чтобы сосредоточиться на подмножестве данных для улучшения.
Когда дело доходит до подготовки данных, самой большой проблемой является курирование данных (33%), за которым следует качество аннотирования (30%).
Курирование данных — удаление поврежденных данных, маркировка метаданными и выявление релевантных данных — имеет решающее значение для предотвращения траты времени и денег на аннотирование данных, которые в итоге могут оказаться непригодными для использования.
Аннотирование данных означает добавление контекста к необработанным данным для MО-моделей с целью получения прогнозов, и, согласно опросу, некачественное аннотирование приводит к «плохой» работе модели.
Одна из проблем при получении данных от внешних поставщиков услуг заключается в том, что они могут иметь данные не самого высокого качества, поэтому часто требуется ручной аудит.
Проблемой для большинства команд МО является масштабирование, причем 38% опрошенных назвали развертывание самым серьезным испытанием. При этом крупным компаниям сложнее выявлять проблемы в своих моделях.
Ключевая тенденция заключается в том, что организации, сосредоточившиеся на инфраструктуре аннотирования данных, могут быстрее переучивать существующие модели, развертывать новые модели и переходить к производству. Кроме того, команды MО могут ускорять развертывание моделей, сотрудничая с партнерами по аннотированию данных.
Около 73% опрошенных используют для своих проектов синтетические данные из-за неадекватности примеров граничных ситуаций на реальных данных, а также из-за юридических проблем или проблем конфиденциальности реальных данных.
После получения данных следующими этапами жизненного цикла MО являются разработка, развертывание и мониторинг модели. Надежная модель МО нуждается в расширении данных, многочисленных итерациях на наборе данных, сравнительном тестировании архитектур моделей и производственном тестировании.
Согласно отчету, большие сложности при разработке моделей вызывает инженерия функций. Она используется для создания моделей на структурированных данных для таких вещей, как рекомендательные системы и прогностические модели.