Семантика на базе машинного обучения и обработки естественного языка расширит возможности аналитики, пишет на портале InformationWeek вице-президент компании Tableau по маркетингу продуктов Марк Джуэтт.
Машинное обучение и обработка естественного языка (NLP) обещают более адекватные ответы на вопросы любознательных людей. Если это так, они расширят применение аналитики и донесут ее до тех, кто не очень уверенно использует данные. Все это поможет машинам научиться понимать намерения людей. Ключом является семантика.
Иногда намерения просты и понятны. Например, когда Siri или Alexa спрашивают, вылетит ли самолет по расписанию. В вопрос заложено четкое намерение. Ответ прост — сообщение о статусе рейса. Подобная простота редко встречается при анализе данных. Обычно вопросы имеют больше нюансов, и трудно угадать, что в действительности ищет пользователь. Еще труднее машине понять естественный язык с его обилием неоднозначных слов.
Машине трудно понять также наше намерение в ограниченном контексте. У машины имеются данные, но отсутствует более широкая картина, которая имеется у человека, хорошо знакомого с данной сферой. «Каковы мои продажи на северо-востоке?». Это гораздо более неопределенный вопрос, чем в примере со статусом рейса.
Неоднозначность — не новая проблема в анализе данных. У разных групп в организации могут быть различные определения одних и тех же слов или разные способы подсчета, например, для термина «прибыльность». Некоторые организации используют единые словари (именуемые также каталогами данных) для уменьшения неоднозначности и обеспечивают единообразие во всей организации. Такие инструменты помогают предоставить пользователям контекст, необходимый для более глубокого понимания.
Как может помочь семантика
Семантика — это, в сущности, поиск значений в языке. Практика семантического управления включает обогащение данных метаданными, описывающими такие аспекты, как классификации, взаимосвязи, синонимы и внешние ссылки. Такое обогащение помогает людям задавать вопросы о данных, не беспокоясь об их структуре.
Прежние технологии NLP начали привязку ключевых слов к заголовкам столбцов, помогая пользователям искать данные без необходимости понимать, как они категоризованы. Но у этого метода есть свои недостатки. Поскольку он зависит от ограниченного указателя синонимов, которые все еще могут иметь несколько значений, намерение человека легко может быть утрачено. Запрос «город, магазин оборудования» может вызвать поиск города с названием «Магазин оборудования» в списке городов, тогда как пользователю нужен находящийся в его городе магазин.
Семантическое управление и машинное обучение за счет доступных системе ассоциаций позволят более полно сопоставлять синонимы и понимать с учетом контекста. Например, по запросу «показать самые дешевые квартиры» система может связать словосочетание «самые дешевые» со столбцом «цена» или «оценка» и даже отсортировать значения по возрастанию, чтобы соответствовать намерению пользователя. Если семантика не столь однозначна или если используются выражения, специфические для определенных организаций либо отраслей, машины должны со временем научиться выявлять намерения.
Почему мы должны устранять неоднозначность
При использовании естественного языка для анализа данных неоднозначность позволяет машинам изучать намерения пользователей. Пользователь может попросить систему показать «крупные землетрясения», и она выдаст результаты в соответствии с магнитудой. Это разумная интерпретация, но пользователь, возможно, хотел видеть данные о размере ущерба. Если у системы есть механизм обратной связи («Вы запрашивали X, но, возможно, имели в виду Y?»), пользователь может поправить и направить систему. Столь же важна возможность уточнить запрос посредством его пояснения и дальнейшего развития.
С помощью обратной связи и мониторинга использования машины будут анализировать предпочтения людей. Аналитическая платформа может изучать разговорный язык со всеми нюансами, присущими конкретной организации или даже определенному человеку. В организации могут иметься различные определения «лучшего клиента». Для одних это значение пожизненной ценности клиента, для других — доходность. Здесь значение более субъективно, чем в случае с «самыми дешевыми квартирами». Такое машинное обучение со временем помогает системе лучше предугадывать потребности людей.
Понимая поведение людей и организаций, видя данные, системы могут более интеллектуально отклоняться от наиболее популярных или предсказуемых ответов. Где-то может быть другой источник данных или редко используемый опубликованный контент, который способен привести к новым интересным знаниям. Хотя трудно создать алгоритм «счастливой случайности», идея помощи в обучении является весьма многообещающей. Это еще один способ устранения неоднозначности. Вместо того, чтобы постоянно ходить одними и теми же путями, пользователь и машина могут извлечь выгоду из использования этой возможности.
Чтобы достичь большего, начните с малого
При наличии смелых идей начать лучше с небольшого теста, а не пытаться создать совершенную систему. Попытки действительно понять намерения людей и помочь им получить точные ответы на вопросы, касающиеся их данных, только начинают предприниматься. Трудно заставить систему понять тонкие нюансы намерения, относящегося к широкому набору данных. Начните с конкретного подразделения или сценария использования. Системе будет проще ориентироваться в контексте и изучать намерения пользователя при ограниченном наборе известных маркеров и семантики.
Когда платформа и человек ближе узнают друг друга, а машины лучше изучат поведение пользователей, контекст можно расширить и сделать более общим. При наличии прочного фундамента в виде семантического управления машинное обучение и естественный язык предоставят мощную, доступную аналитику и более быстрое понимание большему числу пользователей.