Необходимо использовать большие данных таким образом, чтобы при этом не нарушалась конфиденциальность сведений, особенно когда к данным имеют доступ несколько организаций. Гордон Хафф, евангелист технологии из Red Hat, где он работает над стратегией развития продуктов, рассказал на портале Enterprisers Project о некоторых многообещающих подходах и инструментах.
Значительная часть данных, ежедневно используемых правительствами, компаниями и частными лицами, содержит информацию, которая является в той или степени конфиденциальной. Количество случаев определенного заболевания за год не является секретом и важно для понимания ситуации. Возможно, оно отражает результаты реализации некой программы или необходимость внести в нее изменения. Однако фамилии заболевших, как правило, защищены от разглашения законом.
Большие данные все чаще используются в различном контексте. Объем данных, предназначенных для алгоритмов машинного обучения, многократно возрастает. Поэтому защита сведений личного характера становится все более сложной задачей.
Одно из решений — обходиться без данных. Возможно, это правильно применительно к определенным типам данных. Однако, безусловно, такое решение подходит не для всех случаев, учитывая, что агрегированные данные могут улучшить результаты в любой отрасли, от здравоохранения до управления энергопотреблением и движением транспорта. Нужно иметь возможность использовать данные, не жертвуя конфиденциальностью личных сведений. Особенно когда данные используются совместно. Например, исследователями, которые пытаются воспроизвести или расширить результаты ранее проведенной работы.
Делайте данные анонимными
Концептуально простой способ — напрямую сделать данные анонимными. Например, медицинские снимки можно использовать совместно, чтобы сравнивать эффективность различных методов диагностики, удалив их них фамилию пациента и другую идентифицирующую его информацию. Часто пользующаяся доверием инстанция заменяет личную информацию неким идентификатором или псевдонимом.
Распространенной практикой является также обобщение данных. В приведенном примере может иметь значение возраст или возрастная категория пациента, а дата рождения, скорее всего, нет. Поэтому дата рождения 01.01.90 может превратиться в указание возраста (30 лет) или в категорию
Даже представление данных в агрегированном виде не является панацеей.
Представьте себе следующий сценарий. Компания изучает удовлетворенность сотрудников работой, включая вопрос об отношениях с непосредственным начальством. Агрегированные данных по компании доступны всем. Менеджеры видят в обобщенной форме, как к ним относятся подчиненные. Если подчиненных всего несколько, а тем более один, не будет никакой анонимности. В подобных ситуациях обычно показывают результаты опроса, начиная с определенного минимума сотрудников.
Если масштаб гораздо больше, то таким организациям, как Бюро переписи населения США, давно приходится иметь дело с публикацией крупных таблиц, данные для которых нарезаны множеством различных способов. Когда-то эта проблема активно изучалась, что привело к созданию руководств по работе с данным в таком плане.
Что сегодня представляет особую трудность? Данные часто публикуются не в виде статичных таблиц, а в электронной форме, позволяющей делать запросы ad hoc. Поэтому с помощью нескольких запросов гораздо легче свести результаты к одному лицу или небольшому числу идентифицируемых лиц либо компаний. Даже при отсутствии уникального идентификатора совокупность таких данных, как почтовый индекс, возраст, размер зарплаты, наличие собственного дома и т. д., может как минимум сузить круг лиц.
Дифференциальная приватность
Одна из проблем традиционных методов превращения данных в анонимные заключается в том, что часто люди плохо понимают, насколько хорошо они защищают конфиденциальность. Описанные приемы, которые относятся к управлению раскрытием статистики, нередко диктуются интуицией и эмпирическими наблюдениями.
Однако в опубликованной в 2006 г. статье Синтия Дворк, Фрэнк МакШерри, Кобби Ниссим и Адам Д. Смит дали математическое определение утраты конфиденциальности в результате публикации сведений, взятых из статистической базы данных. Этот сравнительно новый подход делает более строгим процесс соблюдения конфиденциальности в статистических базах данных. Он получил название дифференциальной приватности (точнее, ε-дифференциальной приватности). Этот алгоритм строго математическим способом вставляет в набор данных случайные сведения для защиты конфиденциальности.
Данные оказываются «затуманены» до такой степени, что результат запроса ни о чем персональном не говорит. Результаты будут не столь точны, как сырые данные. (Насколько точны, зависит от используемых методов). Но другие исследователи показали, что из базы данных можно извлечь очень точную статистику, гарантировав при этом высокий уровень конфиденциальности.
Дифференциальная приватность остается областью активного изучения. Однако этот метод уже применяется. Например, Бюро переписи населения США будет использовать его для защиты результатов переписи 2020 г.
Полностью гомоморфное шифрование
Полностью гомоморфное шифрование позволяет постороннему производить сложную обработку данных, не видя их. В сущности, это способ расширения шифрования с открытым ключом. Оно впервые было упомянуто вскоре после изобретения криптосистемы RSA.
Данный метод требует очень больших вычислительных ресурсов и пока не получил широкого применения. Однако он позволит создать дополнительный уровень защиты от утечки данных при использовании публичных облаков или привлечении сервис-провайдеров к анализу наборов данных.
Протокол конфиденциального вычисления
С технической точки зрения, протокол конфиденциального вычисления (Secure Multi-Party Computing, MPC) отличается от гомоморфного шифрования, но решает тот же класс проблем. В сущности, MPC заменяет доверенное третье лицо протоколом. Это предполагает сохранение определенных свойств безопасности, таких как приватность и корректность, даже в том случае, если некоторые участники вступают в сговор и злонамеренно атакуют протокол. В общем случае можно представить, что MPC по частям распределяет криптографические секреты между всеми производящими вычисления. Никто из них не может в одиночку произвести расшифровку информации, которая, возможно, содержит конфиденциальные данные. Но все имеют доступ к агрегированным расшифрованным данным. На практике кто-то посторонний также способен произвести вычисления таким способом, чтобы и аналитик данных не имел доступа к входным данным.
Пример, когда данный метод может быть полезен. В компаниях имеются данные, которые они готовы предоставить правительству или какой-то организации для использования в определенных целях. Но никто другой не должен видеть эти данные. Такой случай имел место, когда г. Бостон поручил местному университету изучить различия в оплате труда мужчин и женщин. Компании выразили готовность участвовать в исследовании, но по ряду причин не хотели предоставлять цифры в таком виде, чтобы и другие могли их видеть. Использование MPC позволило решить эту проблему.
Данные становятся все более важными для оптимизации деятельности компаний и разработки соответствующей государственной политики. Однако даже при самых добрых намерениях (предположение, которое, по общему признанию, не всегда оправдано) может происходить утечка конфиденциальной информации, если данные не обрабатываются должным образом.
А обработка должным образом означает выход за рамки исторических сложившихся эмпирических правил и подходов ad hoc. Хотя некоторые методы находятся на различных стадиях разработки, тем, кто анализирует данные, все важнее понимать, какие новые возможности предоставляют имеющиеся у них наборы инструментов.