После появления сообщений о секретной программе шпионажа — ах, нет, конечно же не шпионажа, а наблюдения — Агентства национальной безопасности PRISM ужас охватил СМИ и пользователей Твиттера. Что бы вы ни думали о стремлении АНБ собирать информацию обо всех, ясно одно: большие данные — это реальность, они никуда не исчезнут, и они представляют опасность.
Независимо от того, что вы думаете о стремлении АНБ собирать информацию обо всех, ясно одно: большие данные — это реальность, они никуда не исчезнут, и они представляют опасность.
Как я уже писал в статье “Революция гибкой архитектуры”, чем мощнее технология, тем больше внимания следует уделять управлению. Это относится и к большим данным. Если основная масса людей согласна, что выявлять террористов и останавливать их прежде, чем они нанесут вред, это хорошее дело, то почему они теперь разозлились? Ответ гласит: нас разозлило не то, что АНБ собирает разведданные о террористах, а то, что оно собирает разведданные обо всех остальных. И это возвращает нас к вопросу о больших данных и об уроках, которые помогут нам управлять данными более эффективно.
Урок 1: Управляйте даже ненужными данными
Важны не только те данные, которые вам необходимы, поэтому следует позаботиться и о тех, которые вам не нужны. Управление традиционно концентрировалось на нужных вам данных: наши данные должны быть очищены, корректны и надежно защищены. При ограниченном объеме данных, которые все являются ценными, такие вопросы как обеспечение их качества решаются сравнительно просто. (Хотя на практике качество данных может стать главной головной болью).
Но в случае с большими данными мы уподобляемся старателям, которые пытаются отыскать крупицы золота в тоннах пустой породы. Да, мы должны управлять этими бесценными крупицами, но это, условно говоря, простая задача. Первый урок PRISM заключается в том, что нам необходимо также управлять и пустой породой — данными, которые нам не нужны. Потому что они порождают целый ряд управленческих проблем. Например, связанных с защитой частной жизни, которая оказалась в центре скандала с PRISM.
Проблемы управление вашими большими данными могут быть не связаны с частной жизнью, но это не отменяет того факта, что чем больше данных, тем труднее ими управлять. В конце концов, если вы не находите в этих данных ничего ценного для себя, это еще не значит, что конкуренты или хакеры тоже не найдут.
Урок 2: к метаданным следует относиться так же, как к большим данным
Метаданные тоже могут являться большими данными. Специалисты по работе с данными привыкли думать, будто метаданные представляют лишь технический интерес и не имеют большой ценности за пределами вашего ИТ-подразделения. Однако в случае с PRISM АНБ охотилась за описаниями телефонных разговоров (метаданными), а не за самими разговорами. Эта концентрация внимания на метаданных разговоров подчеркивает тот факт, что метаданные, возможно, являются наиболее ценными из имеющихся у вас данных. Спросите себя, насколько надежно ваше управление метаданными? Если не настолько, как повседневное управление данными, то вы, может быть, не готовы к работе с большими данными.
Урок 3: чтобы разобраться в беспорядочных данных, вам необходимы совершенные аналитические приложения
Приложения для анализа больших данных могут служить инструментами для управления данными, особенно если главная проблема заключается в качестве данных. В конце концов, террористы не собираются рассылать через Twitter сообщения вроде “куплю #пластиковую взрывчатку немедленно, встречайте меня на трассе #бостонского #марафона”. Мы вполне можем предположить, что террористы стремятся сделать свои сообщения непонятными для непосвященных. С точки зрения предприятия, это является примером низкого (в данном случае — сознательно вызванного) качества данных.
У АНБ, естественно, есть сложные алгоритмы, позволяющие разбираться в этих хитросплетениях. С разрастанием вашего набора больших данных вам потребуются столь же совершенные инструменты для повседневного поддержания качества данных. Помните, чем больше наборы данных, тем больше и разнообразнее будут задачи, связанные с обеспечением качества данных. В конце концов, зафиксировать форматы адресов электронной почты в вашей ERP-системе несравненно проще, чем навести хотя бы подобие порядка в колоссальном месиве структурированной, полуструктурированной и неструктурированной информации.
Урок 4: решите, что делать со всеми вашими данными
Один из законов Паркинсона гласит, что объем вашей работы будет увеличиваться, заполняя все доступное время. Применительно к большим данным это означает, что объем собираемых вами данных будет расширяться до исчерпания ваших возможностей хранить и обрабатывать их. Иными словами, если есть возможность собирать большие данные, кто-нибудь ею воспользуется. Вопрос не в том, собирать ли
Урок 5: извлекайте пользу из исторических, а не только из современных данных
Для АНБ актуальные данные представляют большую ценность, чем исторические, поскольку главная забота агентства — получение актуальных разведданных о том, чем занимаются террористы в данный момент. Однако ваша компания может признать полезным использовать для решения проблем не только современные, но и исторические данные. Если какая-то из проблем вашего бизнеса связана с историческими тенденциями, значит, объем ваших данных вновь вырастет, как и проблемы управления данными.
АНБ собирало только метаданные о телефонных переговорах, поскольку эти метаданные соответствовали ее потребностям. Но что можно сказать о самих данных, об аудиоинформации? Возможно, АНБ сейчас не способно накапливать столь большие объемы данных. Но если так, то это лишь дело времени. Вопрос в том, станет ли АНБ собирать аудиоданные, когда получит такую возможность? Думаю, станет. В конце концов, здесь действует следствие из закона Паркинсона.
Действительно, мы можем также предположить, что где-то в федеральном правительстве сидят агенты, собирающие все данные, — все телефонные разговоры, электронную почту, заметки в Twitter, текстовые сообщения, записи в блогах, комментарии в форумах, файлы журналов, словом, все. И хотя сейчас они не могут все это накапливать, со временем у них появится такая возможность.
Несмотря на то, что подобный сценарий может показаться страничкой из оруэлловского романа-антиутопии “1984”, наиболее важный урок заключается в том, что управление данными обрело сейчас важнейшее значение. Вопрос уже не в том, способны ли мы собирать большие данные. Вопрос теперь стоит так: что нам делать с большими данными, когда мы их соберем?