Директор по машинному обучению Quizlet Лин Ченг дает на портале InformationWeek несколько рекомендаций предприятиям для решения задач в области МО и обработки естественного языка (natural language processing, NLP), которые позволят им получить более полное представление об их бизнес-перспективах.
Последние достижения в области искусственного интеллекта и МО сделали технологию NLP настолько мощной, что современные модели превзошли производительность человека в существующих эталонных наборах данных. В сфере образования она используется на нескольких направлениях: от автоматического перевода и помощи студентам в совершенствовании навыков письма до повышения эффективности обучения. Например, Google Translate помогает сделать образовательный контент полезным для большего числа студентов по всему миру.
Duolingo применяет ИИ для определения сложности материалов, которые требуются для изучения языка. Grammarly помогает студентам писать без ошибок, а TurnItIn предназначен для выявления плагиата преподавателями. Quizlet применяет МО и NLP среди прочего для оценки письменных ответов, генерации вопросов и понимания контента.
Большую часть своей карьеры я применял МО и NLP (или возглавлял команды по их применению) для решения проблем пользователей и предприятий. Основываясь на своем опыте я предлагаю несколько рекомендаций для реализации NLP-проектов.
1. Разберитесь со своей проблемой. Новичкам, приступающим к решению задач МО, легко запутаться в теории и коде. Убедитесь, что вы хорошо понимаете проблему и гипотезы, выписав их и проведя исследовательский анализ данных.
2. Соберите данные. Данные, которые используются для обучения и проверки моделей NLP, имеют решающее значение для их успеха, поэтому к этому шагу стоит подойти серьезно, продумывая творческие решения. Например, для тренировочных данных Subject Classifier мы использовали существующий пользовательский контент, содержащий названия предметов в заголовках. (Предполагалось, к примеру, что контент с заголовком «Фотосинтез, глава 3» был о фотосинтезе.) Для других проблем мы собирали обучающие данные с помощью аннотаций или опрашивали наших пользователей. Некоторым моделям, таким как GPT-3 от OpenAI, для обучения задаче требуется всего несколько точек данных, но это компромиссный вариант.
3. Делитесь примерами результатов. Один из лучших способов донести до других, над чем именно вы работаете, — поделиться примерами результатов. Когда моя команда создавала расширенные вопросы, примеры помогли всем понять, какую пользу может принести новая функция, и сыграли решающую роль в определении приоритетности проекта в дорожной карте продукта. Самостоятельный просмотр результатов также поможет вам понять, как улучшить алгоритм.
4. Согласуйте метрики успеха. Помимо обмена примерами, измеряйте и делитесь целостными показателями эффективности. Для оценки качества алгоритма мы часто маркируем выборку из сотен результатов. Договоритесь о том, какие метрики имеют значение (например, ложные срабатывания, охват) и приемлемые пороговые значения. Например, мы создали семантический («умный») грейдер для оценки текстовых ответов в свободной форме. Мы решили, что нам следует стремиться к максимальному охвату истинно правильных ответов, при этом «ложные срабатывания» не должны превышать 3%.
5. Начните с простого (если можете). Некоторые проблемы не требуют сложного алгоритма. Например, наше «предложение для определения» — это просто наиболее распространенные определения для данного слова, для чего используется простая функция подсчета.
6. Будьте бдительны. Создавая контент, не забывайте о предвзятости и оскорбительном/неточном контенте. Все передовые модели NLP обучаются на интернет-текстах, то есть на человеческом поведении, что может быть проблематично. Мы использовали OpenAI для генерации примеров предложений для изучения языка, и его фильтр контента (и наш собственный фильтр поверх него), чтобы исключить потенциально оскорбительный контент. Также важно иметь ограждения и возможности для обратной связи с пользователями.
NLP способна улучшить пользовательский опыт и создать новые возможности, которые ранее были невозможны. Существует множество программ и технических ресурсов, которые помогут вам изучить технологию и инструментарий, а описанные выше шаги помогут вам применять знания в реальных условиях.