Недавние события, связанные с массовой утечкой пользовательских данных в Facebook, показали, насколько уязвимы люди в онлайне в принципе и в особенности — в соцсетях. Портал eWeek напоминает, что британская аналитическая компания Cambridge Analytica смогла получить личные данные 50 млн. пользователей соцсети Facebook. Компанию подозревают в нарушении политики конфиденциальности и манипуляции мнением американцев во время выборов президента США.
Cambridge Analytica никогда не скрывала, что она профессионально занимается сбором данных о потенциальных избирателях и разрабатывает стратегические коммуникации для ведения предвыборных кампаний в Интернете. Она создает психологические портреты пользователей, а затем выстраивает таргетированную политическую рекламу с учетом особенностей поведения людей в соцсетях. Примечательно, что в онлайн-викторине, организованной подрядчиком британской компании для сбора данных о пользовательских предпочтениях, из этих 50 млн. приняло участие только 270 тыс. пользователей.
Возможность нацеленного отбора из массивной базы данных относительно небольшого количества подписчиков подчеркивает влияние соцсетей на поступки людей. Активист правозащитной организация Electronic Frontier Foundation (EFF) Джинни Гебхарт считает, что ситуация усугубляется тем, что большинство пользователей не давало согласия на доступ к своим персональным данным: «У нас их просто отняли. Мы не хотели делиться личной информацией с какой-либо третьей стороной, особенно с той, о которой до того, как ситуация не начала широко освещаться в прессе, никто не слышал».
Объемы и ценность информации, добытой Cambridge Analytica у ничего не подозревавших клиентов соцсети, говорят о том, что даже открытой информации, которой пользователи охотно делятся в соцсетях, вполне достаточно, чтобы получить представление об их образе жизни, проблемах со здоровьем или о политических взглядах. Неудивительно, что этот кладезь сведений привлекает внимание коммерческих компаний и политических активистов.
Доцент Университета Джорджа Вашингтона Кирстен Мартин пришла к выводу, что ситуация с Cambridge Analytica раскрыла теневую сторону соцсетей: понимая, что пользователи стараются игнорировать рекламу, они придумывают другие способы привлечения их внимания. «Получение доступа к чувствительным данным открывает новую главу в истории развития соцсетей, позволяя им манипулировать общественным сознанием. Это уже не просто реклама Coca Cola против Pepsi, там таится нечто побольше», — сказал она.
Нужно знать, что лайки, самый распространенный маркер для выражения эмоций, позволяет соцсетям (а значит третьим сторонам) узнать о человеке практически все: пол, этническую принадлежность, уровень IQ, особенности личности. Очевидно, что не меньшую ценность для них представляют посты, но, по-видимому, современный уровень аналитических платформ либо их дороговизна пока что не позволяют армии рекламодателей эффективно обрабатывать и извлекать из такого рода информации ценное зерно.
Политические взгляды
В описании деятельности Cambridge Analytica говорится, что для разработки стратегической коммуникации в ходе избирательных кампаний она применяет технологии глубинного анализа данных (в частности, данных соцсетей), но пока что не ясно, насколько точно ей удавалось определять политические взгляды людей. В 2013 г. исследователи Университета Макгилла обнаружили, что возможности машинного обучения (МО) для определения политических предпочтений сильно переоценены. Они пришли к такому мнению после проверки методик сбора информации из соцсетей. Впрочем, они уточнили, что на недостоверность полученных данных могла оказать влияние непродуманная схема сбора данных.
Однако методы МО и обработки естественного языка становятся с каждым днем все совершеннее. Проанализировав несколько каналов в Twitter, платформа агрегации соцсервисов Lithium пришла к выводу, что шансы получить сведения о политических взглядах гораздо выше, если составить из твитов социальный граф, привлекая все аккаунты пользователей, участвующих в обсуждении политических тем. «Набор данных со ссылками на сторонние твиты, которые упоминаются в обсуждении, повышает точность определения на 20% по сравнению c набором данных без учета связующих упоминаний», — заявила компания. К слову, клиентам сети Facebook доступны данные о друзьях, которые состоят в группах по политическим интересам.
Сексуальная ориентация
Оценивая фильмы, выставляя лайки в своей ленте на Facebook, делясь файлами cookie, пользователь в неявном виде может раскрывать свою сексуальную ориентацию. Но существуют средства, которые говорят о ней в явном виде, например, фотографии. В 2017 г. группа исследователей Стэнфордского университета обнаружила, что нейронные сети научились выявлять связь между чертами лица и сексуальной ориентацией.
База данных фотографий была взята с американского сайта знакомств — из массива в более 300 тыс. фотографий были отобраны 35 326 фотографий, на которых были изображены 14 776 мужчин и женщин, причем гетеросексуалов и гомосексуалов было поровну (данные о сексуальной ориентации основывались на том, партнера какого пола люди искали на сайте знакомств). Для исследования были отобраны снимки только белых людей, поскольку достаточного количества гомосексуалов с другим цветом кожи на сайте не нашлось. Оппоненты не согласны с выводами этих исследователей, указывая, что механизм распознавания не умеет различать улыбки и положение головы. Механизм не может сличить два фото одного и того же человека, где он улыбается или серьезен, полагая, что это два разных человека.
Исследователи Университета Карнеги — Меллона также обнаружили, что современные системы компьютерного зрения, специализирующиеся на распознавании человеческого лица, можно обмануть с помощью бумажных очков со специальным узором. В своей работе ученые использовали онлайн-платформу машинного обучения Face++, которая специализируется именно на распознавании и анализе человеческих лиц. При этом исследователям удалось с помощью очков как полностью стать «невидимым» для системы, так и выдать человека в очках за другую личность.
Распознавание эмоций
Технологические гиганты в сотрудничестве со специализированными стартапами, такими как Affectiva, уже начали анализировать фотографии и сообщения в соцсетях, чтобы распознавать эмоциональные порывы, которые двигают пользователями во время их размещения. С этой целью система на базе МО анализирует силу и скорость нажатия на клавиши, частоту смены размера шрифт, количество добавляемых в текст смайлов, а также учитывает характер выбранных пользователями эмодзи.
Технология Affectiva использует компьютерное зрение и глубокое обучение для анализа невербальных проявлений эмоций. Созданный ею алгоритм разбивает видео на категории, потом составляет карту мимики по числу эмоциональных состояний — радость, грусть, увлеченность, удивление, возбуждение и пр. Она также разработала автоматическую систему Automative AI, которая определяет невнимательность человека на основе данных о повороте головы, а также следит за глазами, ртом и эмоциями на лице и умеет подавать сигнал водителю, требуя чтобы тот обратил внимание на дорогу.
Задействовав нейросети, в 2014 г. Facebook провела исследование постов с сильной эмоциональной подоплекой, обнаружив, что такие посты могут выплескиваться за границы соцсетей — в общественное поле, например, в СМИ.
Google разработала Cloud Vision API, который позволяет разработчикам анализировать изображения и контекстные данные, используя самообучающуюся и развивающуюся модель МО. Благодаря этому API они могут классифицировать изображения по категориям и подкатегориям, достигая глубокого уровня детализации информации. Cloud Vision может распознать основной субъект фото (например, животное), определить его вид (собака) и породу (бигль). Более того, сервис может предоставить дополнительные данные о фоне фотографии — о траве, горах и т. д.
«Эмоциональными» разработками занимается и Apple. В 2016 г. она купила стартап Emotient. Созданная им технология позволяет при помощи камеры в мобильных устройствах выявлять те эмоции, которые в данный момент владеют человеком. Программное обеспечение способно проанализировать не только выражение лица одного человека, но даже целой группы людей. Apple применяет наработки Emotient в Animoji и Face ID.
Одной из сфер применения разработок Emotient может стать розничная торговля. С помощью программы продавцы смогут узнать мнение покупателей о том или ином товаре. Кроме того, она может пригодиться психологам и психотерапевтам для диагностики ранних стадий депрессии или промоутерам, которые смогут использовать технологию для быстрого понимания реакции людей на их предложения.