Именно эта тема находилась в центре внимания круглого стола, прошедшего в конце мая в Аналитическом центре при Правительстве России. Точнее, изначально вопрос «нужно ли?» не стоял, по-видимому, ответ на него организаторам казался явно положительным, поэтому было предложено обсудить, «какое регулирование нужно». Но по ходу обсуждения все же выяснилось, что потребность в регулировании здесь совсем не очевидна, и к чести собравшихся экспертов в результате было вынесено решение (да, именно решение, зафиксированное в протоколе собрания) о том, что думать о законах по управлению большими данным пока явно рано. А вот вопросы законодательного регулирования персональных и открытых данных необходимо рассматривать, в том числе обсуждать возможные поправки в наши законы с учетом накопленного опыта и возникающих проблем. Такие выводы круглого стола не очень соответствовали начальной задумке мероприятия, поэтому стоит рассказать подробнее, как это получилось.
Кому и чем угрожают большие данные
Тему Big Data никак нельзя назвать новой для России: ее начали обсуждать у нас еще года три назад, и сейчас она присутствует на ИТ-мероприятиях любой направленности. Но до сих пор большие данные представлялись исключительно в позитивных аспектах, в результате чего сформировался образ долгожданной «серебряной пули» (или мифического Эльдорадо), способной легко и просто решить все насущные проблемы человечества. Уникальность же нынешнего собрания заключалась в том, что, кажется, впервые был поставлен вопрос об угрозах со стороны больших данных и о необходимости принятия мер по их предотвращению или хотя бы минимизации. Для чего собравшимся экспертам (представителям интернет-провайдеров, сотовых операторов, банков, ИТ-компаний, а также Роскомнадзора) ведущий мероприятия, советник руководителя Аналитического центра Юрий Амосов, предложил обсудить подходы к регулированию больших данных и связанные с этим проблемы.
Тут надо сказать, что хотя тема больших данных не нова, ясности с ней на уровне реального опыта применения у нас пока явно недостаточно. Что наглядно подтвердил нынешний круглый стол. При этом изначально была допущена типичная ошибка, когда поиск решения проблем начинается до того, как сформулирована сама проблема. В данном случае эксперты стали говорить о регулировании больших данных, не определившись с тем, что понимается под этим термином. Они пошли по ложному пути, попавшись на терминологический крючок, когда название понятия не соответствует внутреннему содержанию.
Термин «большие данные» был интерпретирован собравшимися в буквальном понимании этих слов (то есть данные большого объема), и разговор практически сразу пошел о персональных данных и обеспечении частной жизни граждан. При этом в качестве негативных последствий использования Big Data приводились примеры контекстной рекламы, когда даже после покупки того или иного товара человек еще долгое время получает предложения по его приобретению. А потенциальными угрозами президент компании «Атос» Владимир Аджалов называл возможность выявления протестных настроений в обществе, что могут использовать «враждебные силы» для расшатывания устоев государства.
Заместитель начальника Управления по надзору в сфере информационных технологий Роскомнадзора Геннадий Просвиров сказал, что вопросу регулирования больших данных у нас уделяется большое внимание, и привел в пример известное законодательное требование хранить персональные данные граждан России на территории страны. Правда, у него тут же спросили, какое отношение хранение информации имеет к методам ее статистической обработки, на что ясного ответа получено не было.
Являются ли «большие данные» данными?
Только спустя полтора часа после начала дискуссии один из участников собрания догадался зайти в Интернет и посмотреть, что же означает обсуждаемое понятие; тут-то и выяснилось, что Big Data — это совсем не данные, а методы и технологии их обработки. Вот что, в частности, обнаружилось в Википедии: «Большие данные (англ. big data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце
То есть большие данные — это не данные как таковые, а технологии их обработки с целью получения некоторых нужных человеку результатов. При этом понятно, что данные и технологии их обработки — вещи хотя и взаимосвязанные, но все же разные.
Однако уточнение формулировки по ходу круглого стола не помогло: всем собравшимся было понятно, что говорить о законодательном регулировании математических моделей не имеет смысла, и было решено продолжить разговор о проблематике персональных данных. Впрочем, плодотворной дискуссии и в этом направлении не получилось, поскольку довольно быстро было достигнуто взаимопонимание в том, что в сфере персональных данных (как и открытых) у нас наблюдается изрядная путаница, так что крайне желательна была бы серьезная ревизия существующего законодательства на предмет его уточнения и приведения в соответствие с жизненными реалиями.
Тем не менее по ходу обсуждения удалось договориться о том, что источником больших данных вовсе не обязательно является информация о жизнедеятельности людей (это могут быть, например, климатические данные) и что совсем не любую информацию от людей можно отнести к персональным данным. На это, в частности, обратила внимание старший юрисконсульт «Мегафона» Александра Кожемякина: статистическая обработка (а именно эти методы лежат в основе больших данных) базируется на обезличенных сведениях, которые под категорию «персональные данные» (а значит, и под действие законов о них) не подпадают. Но как раз тут возникает тема возможного законодательного регулирования в сфере управления массивами данных, формируемых человеком, с целью четкого разделения частной информации, которая подлежит защите, и обезличенных данных, которые могут находиться в свободном доступе.
Например, если взять информацию, получаемую операторами сотовых сетей о работе пользователей, то речь идет о том, что удалив из массива данных о телефонных разговорах сами номера телефонов, вы получаете как раз обезличенную информацию. Сославшись на европейский опыт, руководитель по взаимодействию с федеральными органами власти компании «Вымпелком» Антон Лачинов отметил, что именно вопросы «обезличивания» персональных данных, то есть удаление из исходных данных сведений, по которым можно произвести идентификацию конкретных людей (тех же номеров телефонов из информации о телефонных разговорах), является одной из серьезных проблем (в смысле обеспечения «юридической чистоты» операции) для зарубежных сотовых операторов и предметом для внимательного контроля со стороны местных регулирующих органов.
В качестве классического примера, не раз поднимавшегося в СМИ, по ходу разговора вспомнили о том, как по изменению спектра покупок в магазине некой барышни аналитики выяснили, что она беременна и, более того, об этом каким-то образом стало известно отцу девушки. Однако анализ данного случая показал, что большие данные тут ничего противозаконного и аморального не делали: с помощью статистических исследований на базе обезличенных данных была выявлена взаимосвязь между ассортиментом покупаемых товаров и физическим состоянием женщин. Но это нормальная научная практика (статистический анализ) вообще и один из основных методов исследований в медицине в частности. А вот анализ сведений о конкретном человеке (это уже не методы больших данных) и формулировка диагноза относится к разряду «врачебной тайны», разглашение которой (даже родственникам, кроме некоторых исключительных случаев) является преступлением, давно описанным в Уголовном кодексе.
Как подходить к формированию нормативно-законодательной базы
Этот вопрос в его общей постановке также пришлось рассмотреть по ходу дискуссии. Дело в том, что тема законодательного регулирования ИТ (хотя, скорее, применительно к Интернету) поднимается все чаще за последний год, и при этом многие эксперты отмечают одну российскую особенность процесса нормотворчества, рассматривая ее как серьезный недостаток. Речь идет о том, что наши законодатели в сфере инноваций очень часто пытаются начать регулирование рынка еще до возникновения рынка как такового. То есть вводятся правила еще до появления объекта их применения. Идея вроде бы неплохая — предотвратить проблемы, пока они не созрели, но на самом деле довольно опасная в конкретной реализации: можно сформировать такие правила, которые этому самому объекту не позволят появиться (об этом, в частности, говорилось год назад относительно облачной сферы). Все же классическим подходом к созданию законодательной базы является введение тех или иных правил применительно уже к достаточно зрелому рынку, на основе анализа его функционирования и выявления реальных (а не выдуманных) проблем, которые нужно решать.
Есть ли у нас в России некий сформировавшийся рынок больших данных? Найдётся ли достаточное число проектов, на основе которых можно было бы выявить реальные проблемы, требующие вмешательства законодателей? Ответы на эти вопросы, прозвучавшие за круглым столом, были, скорее, отрицательными. Говорилось о существовании «закрытых» проектов, рассказывать о которых сегодня их авторы не очень готовы. Но если нет информации о делах, то нет основы для анализа и выработки каких-то рекомендаций: «на нет и суда нет».
Конечно, Россия имеет то преимущество, что в сфере ИТ-инноваций она несколько отстает от передовых стран и имеет возможность учиться на чужих ошибках, не дожидаясь появления собственных. Но о зарубежной практике проектов больших данных и нормативного регулирования этой сферы никто из собравшихся не был готов говорить.
Можно, конечно, подойти к изучению проблемы с другой стороны. Ведь если большие данные являются развитием методов бизнес-аналитики, то можно изучить опыт ее нормативного регулирования, а потом, поняв, чем же эти данные отличаются от давно известного статистического анализа, попробовать поднять новые проблемные вопросы. С такой точки зрения одним из главных новшеств больших данных является, наверное, то, что в этих методах широко используются «внешние» по отношению к «аналитику» данные (в классическом BI обычно используются данные, формируемые внутри периметра организации). И тут возникают две темы: правомерность применения внешних данных (если можно так выразиться, их «лицензионная чистота») и стандартизация представления данных (чтобы ими мог пользоваться не только их владелец).
Что может получить государство от больших данных?
Когда этот вполне конкретный вопрос Юрий Амосов задал экспертам уже в завершение круглого стола, последовал целый поток предложений, начиная от прогнозов погоды и борьбы с автомобильными пробками и заканчивая выявлением социально-экономических проблем, анализом ситуации в криминальной сфере, здравоохранении, образовании и пр. Собственно, все это ничем не отличается от давно известных аналитических задач, просто большие данные открывают новые возможности в смысле использования информации более широкого спектра.
Проблема же заключается, наверное, в том, что почему-то в нашей стране, с одной стороны, аналитические исследования в государственных структурах используются явно недостаточно, а уж тем более на основе новейших технологических достижений (например, общественное мнение до сих пор изучается традиционными методами точечных опросов, а никак не методом больших данных), а с другой, государство, являясь самым крупных владельцем данных огромных объемов, совсем не спешит делиться ими с обществом и бизнесом, в том числе и для того, чтобы они проводили собственные исследования.
Так что одним из итогов собрания, зафиксированных в его протоколе, стал довольно длинный список предложений, как наше государство может использовать большие данные на благо общественного развития. Проблем же собственно больших данных с точки зрения необходимости их нормативного регулирования выявлено не было.