Как бы вы ни воспринимали недавние события, связанные с утечкой секретных данных, используемая спецслужбами США программа сбора информации, теперь уже известная под именем PRISM, стала крупномасштабной сенсацией и для друзей, и для врагов США. Однако за заголовками новостей, вопросами о неприкосновенности личной информации и геополитическими трениями в связи с существованием крупной государственной программы электронной разведки теряется тот факт, что реализация программы стала подтверждением базовых концепций и технологий, лежащих в основе обработки больших данных.

За опасениями вокруг программы сбора информации правительства США скрывается подтверждение концепций и технологий, лежащих в основе больших данных.

В том, что государственные службы в сфере разведки активно берут на вооружение передовые технологии нет ничего нового, и деятельность многих из этих ведомств в свою очередь стимулирует передовые технологические разработки в частном секторе США. Некоторые из самых уважаемых имен в мире технологий имеют давние глубокие связи с военно-промышленным комплексом Соединенных Штатов.

В 1970-е годы программа ЦРУ по сбору и обработке информации выросла за рамки ведомства и изменила мир технологий. Эта программа привела к появлению реляционных баз данных и к созданию продукта и компании Oracle, название которых превратилось в синоним баз данных. Эта концепция радикально отличалась от существовавших подходов и стала гигантским шагом вперед в управлении, обработке и представлении данных. И само имя Oracle (оракул) подразумевало нечто способное предугадывать будущее.

Реляционные базы данных фундаментально изменили ИТ-ландшафт последних 30 лет. База данных по умолчанию стала концентратором всей информации, имеющейся у организации, как в практическом плане, так и в плане осмысления. Концепция реляционных баз данных проникла в поры нашего общества и привела к ряду проблем разрастания объемов данных, с которыми сталкивается большинство организаций.

Реляционные базы данных очень подходят для хранения ассоциируемых элементов с высокой степенью структуризации, но благодаря повсеместной распространенности стали местом, где хранится всё — независимо от своих структурных или реляционных свойств. Эти базы данных стали основной средой совместно используемого хранения данных даже там, где они, по-видимому, малопригодны, например, в сфере динамики изменения рыночных цен. Однако активные пользователи реляционных баз данных сегодня все больше чувствуют ограниченность связанного с ними подхода.

Так, важным вопросом являются затраты. ПО, аппаратура, сеть, обслуживающий персонал — все это необходимо и все это стоит денег. Другая проблема — эта модель не допускает неограниченного масштабирования. Пока эта проблема остро чувствительна для относительно небольшого числа организаций, но скоро ее ощутят очень многие. Большие данные быстро растут — по оценкам IBM за последнюю пару лет было создано 90% мировой информации.

По разговорам, за PRISM стоят те же ведомства, которые были застрельщиками ряда прошлых технологических импульсов, прежде всего реляционных баз данных. Если до того, как история с PRISM попала в заголовки новостей, мы думали, что большие данные являются сферой интересов только компаний, связанных с социальными сетями, и Интернет-гигантов, то теперь наши представления изменились.

Как ни велики вызовы, стоящие перед лидерами технологии больших данных, PRISM замахивается на гораздо большее. Мы видим все больше и больше примеров использования в реальном мире приложений для больших данных. В случае PRISM это использование очень конкретно и серьезно.

Если отвлечься от шумихи вокруг PRISM, становится ясно, что эта программа является доказательством функционала фундаментальных приложений, связанных с облаком и большими данными. Она в широком масштабе использует технологии, которые сегодня классифицируются как облако (массово распределенная система, абстрагирование от аппаратуры, использование стандартных компонентов) и большие данные (Hadoop, обучение машины и распознавание образов).

Мы не утверждаем, что PRISM действительно задействует Apache Hadoop, но в ней работает нечто подобное — массивно распределенная файловая система, способная вмещать огромные объемы неструктурированных данных и обеспечивать их быструю параллельную обработку. Эта платформа должна быть самоисправляемой, горизонтально масштабируемой и построенной из серийно-выпускаемых компонентов. Аналогично Hadoop она, скорее всего, работает путем отсылки программы к данным, а не более традиционным методом ввода данных в программу.

Это говорит о том, что большие данные вышли за рамки периода исследований или экспериментального внедрения. Ясно, что как используемая платформа, так и получаемая из нее информация обладают реальной ценностью, иначе бы заинтересованные ведомства изменили свой курс. Если не касаться юридических проблем и вопросов неприкосновенности личной информации, PRISM является весомым практическим подтверждением концепций больших данных и технологий, о которых последнее время много писалось в прессе.

Возможно крупнейшим сдвигом по отношению к прошлым технологическим разработкам, инициированным разведывательными и оборонными структурами, стала быстрота передачи этих технологий в гражданские руки. Сегодня имеется целый ряд платформ, использующих Hadoop, а облако стало повсеместным. Цели и задачи освоения этих технологий частным сектором, очевидно, совершенно отличны от PRISM, но мы теперь твердо уверены, что технология работает и оправдывает затраты.

До сих пор многие считали, что недавно раскрытая программа технически нереализуема. Смысл слова “большие” даже не в том, что оно характеризует масштабы данных, перерабатываемых в PRISM. Теперь оно подтверждает, что эта технология открывает огромные возможности.