Каким образом алгоритмы на основе обработки данных и машинного обучения (ML) используются для контроля содержания новостных лент и распространения информации? Насколько этот процесс автоматизирован, какую его часть мы способны понять и проконтролировать и в каком направлении идет его развитие? На все эти вопросы может ответить LinkedIn.

Работа LinkedIn довольно сильно завязана на данных и машинном обучении, однако представители компании уверяют, что человеческие посредники в данном вопросе все же незаменимы.

Недавно LinkedIn сменила внешний вид своей новостной ленты и представила публике новый раздел под названием Trending Storylines (трендовые сюжеты). В свете недавнего приобретения деловой соцсети корпорацией Microsoft можно сказать, что у этого шага далеко идущие последствия.

Социальные сети и их новостные ленты стали играть в нашей жизни ключевую роль. Они в значительной степени формируют наше восприятие, способ получения нами информации и наше взаимодействие друг с другом и со всем остальным миром. LinkedIn — это соцсеть для профессионалов, однако ее размеры и амбиции подразумевают, что ее новостная лента может сама по себе иметь большую ценность.

Основным принципом работы LinkedIn является обработка данных, позволяющая предложить пользователям именно то, что им будет интересно в рамках этого сервиса. Как высказался Игорь Перишич, директор LinkedIn по цифровым технологиям, вице-президент по инженерному проектированию и глава подразделения ML: «Машинное обучение — как кислород для организма LinkedIn».

Однако в случае с LinkedIn в отношении ML действует принцип умеренности: главное не переборщить. Здесь очень важно придерживаться взвешенного и прагматичного подхода, оставив в качестве посредника человека.

Что такое спам?

Мы связались с Перишичем, чтобы обсудить его идеи применения данных и машинного обучения в LinkedIn. Так как мы раньше не встречались, наш разговор начался со вполне типичного обмена любезностями: мы поделились, как у каждого из нас прошел день, и рассказали, где кто живет. Казалось бы, это не имеет никакого отношения к теме обсуждения, но это только на первый взгляд.

LinkedIn — это профессиональная соцсеть, и мы завели о ней профессиональный разговор. И тут на тебе: мы разговариваем о том, как красив Берлин весной. Разве это профессионально? И кто решает, так это или нет? Возможно ли, что алгоритмы LinkedIn расценили бы этот разговор как спам, если бы его выложили в Интернете, а не провели по телефону?

LinkedIn долго работала над определением профессионального разговора и тем, как это отображается на содержимом наших новостных лент. Многим из нас приходилось видеть у себя в новостях посты типа «угадайте следующее число в этой последовательности». Некоторых они интригуют, для некоторых служат приманкой, чтобы кликнуть на ссылку.

Перишич сообщил, что, судя по отзывам от пользователей, они не считают это образцом профессионального разговора, поэтому в LinkedIn решили не захламлять такими сообщениями новостные ленты.

Очевидно, что здесь имеется определенный уровень толкования. Применительно к данному случаю, такой контент истолковывается как низкокачественный. Недавно LinkedIn внесла изменения в свою новостную ленту, формируемую с помощью ML-алгоритмов, и обнародовала некоторые подробности. Если вкратце, то в LinkedIn используется комбинация ML-алгоритмов с работой оператора-человека — таким образом происходит классификация контента по качеству, а затем к нему применяются соответствующие действия.

Стратегия LinkedIn по борьбе со спамом: она основательно автоматизирована, однако ключевые решения по-прежнему принимаются людьми.

ML работает как триггер, который оценивает контент в два этапа. Сначала классификаторы LinkedIn, работающие в онлайн-режиме и режиме, близком к нему по скорости, помечают каждое изображение, текст или длинный пост, которым кто-либо поделился, метками «спам», «низкое качество» или «годится» в режиме практически реального времени. По мере того, как этот контент начинают читать люди, запускается другой набор классификаторов, определяющих, какова вероятность того, что этим постом все начнут делиться и он наберет бешеную популярность. Они же определяют, насколько низкое у него качество, и при необходимости помечают виновных пользователей.

Если эти классификаторы могут с высокой точностью заключить, в какую категорию попадают эти сообщения, они начинают действовать самостоятельно: либо оставляют эти сообщения, либо снижают их рейтинг, либо вовсе их отфильтровывают. Если классификаторы не могут сделать вывод с большой уверенностью, то на помощь приходят люди-редакторы. LinkedIn ставит свою команду сотрудников отдела поддержки доверия и безопасности, маркирующих контент, во главу угла своей деятельности, направленной на борьбу со спамом.

Решения, принимаемые штатными редакторами LinkedIn, затем поступают в качестве входных аргументов обратно в ML-алгоритмы, таким образом улучшая их. Руши Бхатт, старший технический руководитель LinkedIn, говорит, что люди проработали в этой цепи обратной связи в таких масштабах уже примерно с год. Все началось в 2016 г. — тогда для большей части контента участие ML-классификаторов было совсем незначительным, так что эта цепь запустила в работу всю программу LinkedIn.

Но насколько хорошо она работает? «Разные классификаторы занимаются разными вещами, так что трудно выбрать какую-то конкретную цифру, которая оценивала бы эффективность нашей программы, — говорит Бхатт. — По результатам онлайнового AB-тестирования одного набора классификаторов количество показов спама и низкокачественного контента уменьшилось на 48% благодаря этим упреждающим алгоритмам. А с помощью другого набора упреждающих алгоритмов удалось в шесть раз повысить точность маркировки низкокачественного контента».

Бхатт считает, что надобность в человеческой составляющей отпадет еще не скоро. «Одна из причин, по которым в LinkedIn хотели бы и дальше поддерживать работу цепи обратной связи с участием человека состоит в том, чтобы отслеживать сайт на предмет новых, неведомых типов спамерских атак и непрерывно измерять рабочие характеристики системы. Будут и другие случаи, в которых понадобится более пристальное изучение, — говорит он. — Во всяком случае в LinkedIn считают, что классификаторы избавляют сотрудников от нудной ручной работы по разметке контента, а у людей, занимающихся классификацией, появляется больше времени на анализ менее однозначного контента, по поводу которого решение должен выносить человеческий ум. LinkedIn также пользуется разнообразными методами, чтобы исключить предвзятость: алгоритмы тренируются только на том контенте, который проходит через цепь обратной связи».

Так можно ли считать разговоры о весеннем Берлине спамом? Зависит от обстоятельств. Если вы делитесь чем-то исключительно с группой людей, с которыми вы каким-то образом связаны, алгоритмы проявят к вам меньше строгости, чем если бы вы решили поделиться этим со всем миром.

Перишич даже пошел дальше: он утверждает, что машинное обучение может проактивно помогать пользователям настраивать опции публикации своих постов, чтобы избежать побочных эффектов и получить максимальную отдачу. Так что не будем удивляться, если вскоре соцсеть объявит о появлении каких-то функций такого рода.

Trending Storylines: что если LinkedIn — это средство массовой информации?

Но если LinkedIn может предсказывать, станет ли пост мегапопулярным, разве она не может применять те же методы для генерации таких постов? Очевидно, что может, и именно этого, похоже, и добивается с помощью своей новой функции Trending Storylines.

LinkedIn анонсировала ее как часть нового новостного интерфейса. Соцсеть рекламирует этот раздел как возможность для зарегистрированных пользователей узнавать и обсуждать новости, идеи и различные точки зрения. Работает эта функция за счет сочетания компьютерных систем и компетенции редакторского коллектива LinkedIn — вместе они создают список рекомендованных к прочтению релевантных новостей. Идея состоит в том, чтобы редактор выбрал и написал сюжет, а ML проделало всю остальную работу, в том числе обновление этих новостей за счет нового контента по мере его поступления.

И хотя еще слишком рано судить, насколько хорошо работает эта функция, так как она была выпущена лишь на днях и пока только на территории США, по описанию она похожа на голубую мечту любой новостной организации. Перишич отмечает тот факт, что ML работает намного лучше, если его применить в узкоспециализированном пространстве, как в данном случае. Но это также влечет за собой ряд интересных моментов.

Очевидно, что классификации контента всего по трем категориям — «спам», «низкое качество» или «годится» — недостаточно. После того, как материал был признан годным, в игру вступает другой набор классификаторов, который размечает этот материал в соответствии со списком критериев. В качестве примера Перишич привел классификатор, оценивающий контент по его способности провоцировать обсуждение.

Однако все классификаторы нужно надлежащим образом настроить и объединить, а это, пожалуй, больше искусство, чем наука. К примеру, объявления о вакансиях обычно не вызывают никакой дискуссии. Если бы система опиралась исключительно на эти классификаторы по интересности обсуждения, то такие объявления отодвинули бы на задний план, что, по всей видимости, стало бы нежелательным побочным эффектом, так что новостную ленту нужно было бы настраивать.

В LinkedIn теперь появился раздел Trending Storylines, в котором сюжеты создаются редакторами-людьми, а обновляются (и публикуются) алгоритмами машинного обучения.

И здесь мы попадаем в «новостную» сферу. В статье LinkedIn, освещающей особенности раздела Trending Storylines, уделяется внимание признакам добротного сюжета: «После тщательного обдумывания и обсуждения, после того, как раздел Storylines оценили первые тестировщики, мы выделили следующие четыре атрибута качества новостных результатов: релевантность, актуальность, профессионализм, персонализация».

В настоящее время LinkedIn черпает контент из трех источников: посты пользователей и обновление их статусов, собственная платформа для блогеров и контент, помеченный штатными редакторами как «важный». Стало быть, если LinkedIn нанимает редакторов, просеивающих новостные ленты и работающих над созданием сюжетов, то ее можно считать средством массовой информации, в той же мере, в какой этот вопрос был задан в отношении Facebook? Но накладывает ли это на них какую-либо ответственность и скажется ли на качестве ресурса полное устранение участия человека в этой схеме?

Исполнительный редактор LinkedIn комментирует этот вопрос следующим образом: «В своей работе мы не ориентируемся ни на какую платформу, наша задача — инициировать интересные обсуждения в среде профессионалов, и, разумеется, ключевым компонентом этого обсуждения являются хорошие сюжеты. У нас также надежные отношения с издательскими организациями, к тому же количество посетителей, перенаправленных на наш сайт по ссылке, увеличилось в 2–3 раза. Мы всегда были убеждены в том, что настоящее волшебство происходит, если объединить редакторов с алгоритмами. Редакторы (почти все из них по профессии журналисты) могут выявить, спланировать или поощрить качественные, актуальные дискуссии. А алгоритмы позволяют нам проникнуть глубже в пласт интересных новостей помимо основных, наиболее популярных тем. Редакторы своими действиями тренируют алгоритмы, а алгоритмы помогают обнаружить потенциально ценные обсуждения».

Как заглянуть в черный ящик и насколько широко его приоткрыть?

Появление Trending Storylines вновь поднимает забытый вопрос: достаточно ли прозрачна политика LinkedIn и ее правила игры в отношении авторов контента и потребителей новостных лент? На эту тему в обществе прозвучала определенная критика, ведь очевидно, что существует тонкая грань между защитой интеллектуальной собственности и поддержанием имиджа привлекательного канала для создателей контента и потребителей. На эту тему Стив Линч, старший менеджер по коммуникациям LinkedIn, высказался так: «Многие из этих проблем были решены после публикации статьи на сайте E-Commerce Times (где обсуждается вопрос несоответствия между количеством подписчиков у отдельно взятого пользователя и количеством просмотров его постов). К тому же в LinkedIn поработали над проблемами, раскритикованными в статье ZDNet (об ужасном качестве новостной ленты), и могу четко утверждать, что одной из причин этих недоразумений стало несоответствие между функционалом мобильной и настольной версий LinkedIn. Например, мы запустили новый модуль, призывающий зарегистрированных пользователей настраивать свои ленты по принципу наибольшей релевантности, но на тот момент этот модуль отсутствовал в версии для настольных компьютеров.

В конечном счете наша цель состоит в том, чтобы и дальше добавлять и улучшать инструменты, с помощью которых пользователи могут управлять своим новостным разделом и сообщать нам, что они там хотят видеть».

Хотя судить о том, является ли LinkedIn примером СМИ и насколько сильно ей стоит обнажать работу своих внутренних механизмов, будут в основном со стороны, все же Перишич также обеспокоен вопросом прозрачности. В том, что касается прозрачности принципа формирования новостной ленты, он усматривает некий повод для своеобразной гонки вооружений: «Подробное описание работы наших алгоритмов станет палкой о двух концах. Если мы объясним, как они функционируют, мы дадим спамерам возможность обмануть систему».

Тем не менее, рассекречивание черного ящика ML все-таки входит в обязанности Перишича. Он сейчас участвует в переговорах между LinkedIn и контролирующими органами ЕС по вопросам соблюдения Общего регламента защиты данных (General Data Protection Regulation, GDPR), который вступит в силу в мае 2018 г. Частично эти переговоры касаются того факта, что LinkedIn, в числе прочего, будет обязана предоставить любому желающему информацию касательно тех или иных явлений, происходящих на платформе. Вот что он думает по этому поводу: «Если попытаться объяснить вам работу ML-алгоритма с сотней тысяч настроек и функций, это будет задача не из легких. Такое объяснение должно быть понятным с точки зрения человека, задающего вопрос, а не с точки зрения эксперта. Я-то, глядя на эту модель, все пойму, но задача в том, чтобы объяснить это человеку, спрашивающему: „Что вы собираетесь делать с моим контентом?“.

Мы все еще обсуждаем, как именно истолковывать новые предписания. Нельзя допустить, чтобы по причине высокой степени сложности ML и статистического анализа практикующих их специалистов унесло в дебри, понятные только им самим. Если понятие очень сложное, это не значит, что его нельзя объяснить.

Какие факторы влияют на алгоритм? Нам придется вернуться к исходному смыслу алгоритма и попытаться понять его в терминах обывателя, а не в наших профессиональных терминах. Я могу описать несколько регрессионных методов, работающих тем или иным способом, но это слишком технический подход. Нам обязательно нужно донести это до вас — мы не имеем права прятаться за формулами.

Мы можем указать главный фактор, на котором базируются наши модели. Не все факторы, а только тот, который оказал наибольшее влияние. Будет ли такое объяснение полным? Нет, но его может оказаться достаточно, чтобы удовлетворить желание человека разобраться в вопросе».

LinkedIn + Microsoft = все ваши данные теперь наши? Все не так просто

Новый регламент также повлияет на то, что LinkedIn сможет делать, находясь в составе Microsoft. Перишич занимает в LinkedIn одновременно и должность директора по цифровым технологиям, и должность вице-президента по инженерному проектированию. И хотя он шутит по поводу того, что логотип LinkedIn по-прежнему висит на всех зданиях, где они работают, все же объединение баз данных двух компаний — это очень серьезный вопрос.

Так что же помешает Microsoft сделать то, что сделала в один прекрасный момент Google с YouTube и другими сервисами — создать единый профиль пользователя для всего спектра ресурсов, со всей имеющейся у них информацией о вас? Переговоры LinkedIn с контролирующими органами частично касаются именно этой темы.

Вот что говорит Перишич: «Мы должны действовать осторожно. У нас перед глазами недавний прецедент с Facebook и WhatsApp. Для одобрения сделки покупки нам нужно выполнить ряд условий, но что еще важнее, чтобы хорошо выполнять свою работу, мы должны пользоваться доверием своих пользователей. Наш главный принцип — пользователи на первом месте.

Представьте, что могло бы произойти, если бы, например, ваша переписка в чатах Xbox стала доступна всему остальному миру? Вы бы возмутились: погодите, я же поделился этим только с участниками той игры, в которую я играл сегодня; я не хочу, чтобы вы знали, кто я такой или встроили эти данные в мой профиль Outlook или в мои настройки поиска в Bing.

Вам нужно решить, с чем будет ассоциироваться ваша платформа. Нам в LinkedIn нравится думать, что мы особенные, и не только потому, что мы задаем принцип поведения нашего продукта с помощью машинного обучения.

ML можно использовать для классификации намерений, так что здесь нужно быть очень осторожными. Если уж мы спрашиваем пользователей, с кем они хотят делиться информацией, нам придется уважать их решение. Для нас принцип „пользователи на первом месте“ означает, что данные принадлежат самим пользователям — мы лишь их хранители».

Тем не менее, это не означает, что LinkedIn и Microsoft не преследуют никаких планов на совместную деятельность. Для начала, говорит Перишич: «В Microsoft работает множество толковых ребят, и взаимный обмен кадрами, очевидно, принесет большую пользу. Вместо того, чтобы встречаться с этими людьми только на конференциях и по каким-то намекам узнавать, как они решают те или иные проблемы, мы теперь можем общаться с ними напрямую и иметь полный доступ к их наработкам.

Возьмем, к примеру, работу с кластерами графических процессоров, которой занимаются и у нас, и в Microsoft. Конфигурирование этих кластеров — задача непростая, и здесь нам очень пригодился опыт Microsoft. Этот принцип работает и в обратную сторону, а также в других областях, например, при разработке инструментов и алгоритмов. Многие из наших инструментов относятся к Open Source и уже используются в Microsoft, например, Kafka. Также у нас есть алгоритмы, которыми интересуются в Microsoft, к примеру, алгоритмы для крупномасштабной логистической регрессии. Но в общем и целом мы сохраняем автономию».