Человечество может вплотную подойти к той черте, когда его попросту “накроет” неконтролируемыми потоками информации. По крайней мере именно такую картину рисуют для нашего мира некоторые футурологи. Объёмы информации росли и раньше, но настоящую известность явление под названием “большие данные” (Big Data) получило не более двух лет назад, когда у специалистов возникло некоторое понимание того, что растущие массивы неструктурированной информации начинают постепенно преобладать над классическими, преимущественно представленными в виде реляционных СУБД.
Технология больших данных включает инструменты, процессы и методы, позволяющие организациям манипулировать и управлять крайне большими объемами цифровой информации, исчисляющимися тера- и петабайтами. Значимость рынка Big Data неплохо иллюстрируют исследования аналитиков. Согласно прогнозу IDC, в ближайшие годы мировой рынок решений и услуг, связанных с большими данными, в среднем будет ежегодно расти на 31,7%, в семь раз превышая темп роста глобального ИТ-рынка, и к 2016-му достигнет объёма в 23,8 млрд. долл. Не менее показательную оценку для этого рынка дали аналитики из Gartner. По их прогнозам, к 2015-му большие данные позволят создать 4,4 млн. рабочих мест и начиная уже с нынешнего года станут одной из ключевых технологий на ИТ-рынке.
Уже не вызывает сомнений, что решения и услуги, связанные с большими данными, — это многомиллиардный бизнес с высокими темпами роста. Но по мнению администратора баз данных Redflex Филиппа Вика, которым он поделился с изданием Servicetechmag, хоть большие данные и получили своё коммерческое воплощение в виде BDaaS (Big Data-as-a-Service) и сопутствующего ему технического обслуживания, остаётся открытым один вопрос: нуждаются ли предприятия в этом сервисе?
Уже сейчас большие данные генерируются в таких отраслях, как образование, медицина, промышленное производство, сельское хозяйство, управление качеством продукции, управление складскими запасами, финансовые услуги, розничная торговля, предсказание поведения клиентов и т. д. Очевидно, что в ближайшем будущем ИТ-системы предприятий столкнутся с возрастающими массивами неоднородной информации, предполагающей её анализ едва ли не в режиме реального времени.
Вик считает, что традиционные СУБД по-прежнему будут источником оперативной информации для предприятий, но постепенно к ним присоединятся “определяющие технологии нового поколения” — большие данные, облачные сервисы, сервисно-ориентированная архитектура (SOA). На его взгляд, постоянное снижение удельной стоимости хранения данных будет способствовать тому, что неструктурированные данные постепенно заменят существующую на современных предприятиях схему накопления и обработки информации, в связи с чем потребуются более гибкие инструменты бизнес-аналитики.
Необходимые для BDaaS компоненты включают высококлассные сервисно-ориентированные архитектуры, возможности облачной виртуализации, Hadoop, инструменты бизнес-аналитики для выявления взаимосвязей и глубинного анализа неструктурированной информации. “Постепенное усовершенствование ПО для обработки больших данных потребует изменить пользовательский интерфейс, коммуникации, системы хранения информации и слои обработки задач без перестройки всей архитектуры предприятий”, — говорит Филипп Вик.
И хотя постепенное — не значит немедленное, но даже в этом случае проникновение BDaaS может вызвать некоторое замешательство, причём не столько с точки зрения бизнеса, сколько с этической точки зрения. Инженер из Redflex полагает, что обладание инструментами для анализа больших данных может создать благотворную почву для злоупотребления конфиденциальной информацией. “В технической литературе вы редко встретите упоминание понятий больших данных и вопросов этики в едином контексте, — поясняет Вик. — Мы без труда определяем, что имеем дело с большими данными, но возникает сложность: как определить, где именно лежит та разграничительная линия, что отделяет личные данные от коммерческих”?
Исследователи из Pew Internet Center Internet & American Life Project и Илонского университета опросили более тысячи экспертов на тему “Будущее больших данных”. Вот некоторые оценки, прозвучавшие в ходе опроса. Директор по аналитике компании Mead & Clark Interbrand Син Мид считает, что большие данные могут вызвать новый технический бум, который выразится взрывом деловой активности и ростом производительности, сравнимым с изменениями в связи с появлением Интернета и персональных компьютеров. Ему вторит главный экономист Google Хэл Варьян, полагающий, что большие данные ожидает “блестящее будущее”. Он уверен, что уже в следующем десятилетии мы станем свидетелями растущего государственно-частного партнерства, которое позволит правительствам установить контроль над некоторыми хранилищами данных в частном секторе. Это, в свою очередь, приведет к более информированной, более активной фискальной и монетарной политике.
Совершенно противоположной точки зрения придерживается эксперт Брайан Трогдон, который большие данные уподобляет залежам нефти: их обладатели, будь то компании или правительства, получат гигантские преимущества перед теми, кто будет их лишен. Сходную мысль высказывает и Джефф Ейзенах, управляющий компанией Navigant Economics. По его мнению, большие данные на самом деле окажутся не такими уж “большими”, а их значительная часть будет храниться в закрытых, секретных БД, доступных только их владельцам. Ещё больше сгущает краски консультант из Institute for the Future Джерри Микалски, отметивший: “Люди с самыми благими намерениями будут пытаться использовать большие данные для решения крупных проблем человечества, но мы неоднократно были свидетелями тому, что дорога, вымощенная такими намерениями, ведёт в ад”.
Вик полагает, что огромные базы данных и постоянное пересечение разных видов информации может подорвать устои частного образа жизни человека вплоть до того, что конфиденциальность прекратит свое существование как таковая. Прекратит даже независимо от того, является ли человек активным пользователем Интернета или нет, — в последнем случае ему всё равно не избежать многочисленных датчиков и камер видеонаблюдения.
Говоря о преимуществах использования больших данных для предприятий, в числе главных аналитики называют возросшую эффективность труда и автоматизацию многих процессов, которая значительно сокращает затраты и облегчает работу, новые методы принятия решений. Большие данные полезны и с точки зрения взаимодействия организации с клиентами. Анализ и учет информации вкупе с существующими технологиями делают возможной персонализацию потребителей и моделирование их поведения в режиме реального времени. Компании смогут отслеживать момент, когда клиенты близки к тому, чтобы принять решение о покупке, и подталкивать их к этому, например, с помощью различного рода бонусных программ.
Важно понимать и то, что большие данные позволяют расширить область применения алгоритмов и машинного анализа, позволяя выявить ту информацию, которая в ином случае осталась бы скрытой. Таким образом, помимо аналитических преимуществ использование больших данных влечет за собой трудности, связанные с конфиденциальностью. Эти трудности можно разделить на две группы:
проблемы конфиденциальности личной информации потребителей (известно, что большая часть данных, которые получает организация, связана с потребителями и чем больше информации компания получает, тем сильнее они будут обеспокоены вопросами конфиденциальности);
проблемы конфиденциальности информации, которой располагает компания (применение результатов анализа больших данных в работе подразумевает более открытый доступ к информации и использование различных устройств, предназначенных для ее хранения, что повышает риск утечки).