Разговоры о постоянном геометрическом росте объемов хранимых данных ведутся с середины прошлого века. По данным аналитиков, в 2010 г. суммарные цифровые активы в мире перевалили за отметку в 1 зеттабайт (зетта — 1000 в седьмой степени, единица, после которой идет 21 ноль). На темпах этого роста даже почти не сказался мировой экономических кризис: четыре года назад IDC предсказывала, что в 2011 г. объемы данных вырастут до 1,8 зеттабайт (в 10 раз по сравнению с 2006-м), и, кажется, этот прогноз оказался даже меньше реальных показателей.
Объемы растут постоянно, но только в последние один-два года на ИТ-рынке стала широко обсуждаться концепция Big Data (большие данные), появление которой связано с пониманием необходимости некоторых качественных изменений в подходах к хранению и использованию растущих объемов информации. Когда традиционный вариант прямолинейного увеличения ресурсов и мощностей уже не работает.
Проблема заключается еще и в том, что, несмотря на постоянное снижение удельной стоимости хранения данных, заказчики отмечают непрерывный рост затрат на хранение. Аналитики отмечают, что взрывной рост объема информации не является результатом увеличения числа деловых операций и, вполне вероятно, объясняется неуправляемыми процессами репликации данных. Даже поставщики устройств хранения все чаще говорят о том, что круг задач управления информацией сейчас быстро смещается от вопросов физического хранения данных к их использованию, что хранение данных — это не самоцель, а средство для того, чтобы ими можно было воспользоваться в нужный момент. При этом тема Big Data напрямую связана с другой, уже давно обсуждаемой глобальной ИТ-тенденцией — с переходом к широкому внедрению облачных вычислений.
Чтобы разобраться с кругом вопросов темы Big Data и понять актуальность этого направления, в том числе для российского ИТ-рынка, мы обратились к ряду экспертов из отечественных и зарубежных ИТ-компаний.
Big Data — новые идеи или новое название известных вещей?
Очень часто действительно новые, важные и интереснейшие прорывы и открытия в технике лежат где-то на стыке различных методик, дисциплин, технологий и представлений о, казалось бы, довольно хорошо изученных вещах. Высказав этот тезис, менеджер по маркетингу продукции представительства Fujitsu в России и СНГ Александр Яковлев отметил, что нечто похожее происходит сегодня и с большими данными: “Новая концепция, а скорее, новые возможности для работы появились на стыке облачных технологий хранения, новых функций аналитических приложений и собственно самих больших данных”. При этом он подчеркнул, что работа с большими данными невозможна без облачных хранилищ и облачных вычислений — появление облачных технологий не только в виде идеи, а уже в виде законченных и реализованных проектов стало отправной точкой для нового витка интереса к концепции обработки больших данных, о которой впервые заговорили около трех лет назад. Отсюда делается вывод: “Сегодня это, скорее, не маркетинговая перемена названия давно существующей технологии, а выход технологий на новую ступень, которая позволяет совершить уже качественные изменения”.
Руководитель направления платформенных решений “SAS Россия/СНГ” Алексей Мещеряков сказал о том, что хотя Big Data — это уже популярный сегодня термин, но все же он еще не очень устоялся по смыслу. Сейчас он обычно используется для обозначения потребности организации в загрузке, хранении и оперативном анализе сверхбольших объемов экспоненциально растущей структурированной и неструктурированной информации, лежащей за пределами традиционных вычислительных возможностей. Представитель SAS выделил в понятии Big Data три основные характеристики:
- объем — стремительно растущие размеры массивов данных;
- многообразие — все виды хранения информации: текст, структурированные таблицы, документы, электронная почта, SMS, данные измерительных приборов, видео, аудио, данные биржевых торгов и многое другое;
- быстродействие — время выдачи информации по запросу, способность сверхоперативно реагировать на задачи и проблемы компании.
В целом данная проблематика напрямую связана с направлением высокопроизводительных вычислений (High Performance Computing, HPC) при выполнении аналитических исследований, что, в свою очередь, включает такие вопросы, как grid computing (распределенные вычисления на нескольких серверах), in-database analytics (частичный перевод нагрузки при аналитических вычислениях в СУБД, а также регламентное применение готовых аналитических моделей к новым данным полностью на стороне СУБД) и in-memory analytics (применение аналитики прямо в оперативной памяти сервера СУБД).
По мнению Алексея Мещерякова, решая задачи, связанные с Big Data, компании получают весомые конкурентные преимущества в виде доступности обоснованных результатов аналитических исследований, проведенных на громадных объемах структурированных и неструктурированных данных, причем в условиях жестких ограничений по времени, вплоть до режима реального времени. Такой подход меняют саму парадигму ведения бизнеса, позволяя руководителям применять ранее недоступные методы и возможности для управления компанией. Развитие технологий для решения задачи Big Data может стать основой для развития конкурентоспособности, инноваций и роста в бизнесе.
А вот менеджер по маркетингу продуктов SQL Server и BizTalk Server российского представительства Microsoft Вячеслав Архаров считает, что в настоящее время четкого и однозначного определения понятия Big Data нет: “Под Big Data, как правило, понимается набор задач, связанных с обработкой большого количества неструктурированных данных за нерегламентированное время, но с гарантированным результатом. В этом заключается принципиальное отличие Big Data от традиционных СУБД и хранилищ данных, так как последние предполагают хранение информации в четко структурированном виде и гарантируют время выполнения операций. Под неструктурированными данными в виду имеется такая информация, как логи файлов, изображения, видео, информация, полученная с устройств, и т. п. Большинство таких данных никогда не будут храниться в традиционных СУБД, и в прошлом они достаточно часто удалялись за ненадобностью. Однако сейчас стало экономически выгодно не только хранить подобную информацию, но также обрабатывать и анализировать ее”.
С этой трактовкой в целом согласен ведущий технический эксперт Sybase CIS Андрей Хромов: “Под большими данными подразумеваются растущие объемы структурированных и неструктурированных данных, поступающих из разных источников. Причем работа с этими данными, сложными по структуре и многообразными по типам, не может выполняться традиционными системами”. В то же время, он отмечает, что большие данные — не такое уж и новое явление. Еще в 50-х годах прошлого века объем данных в организациях уже становился проблемой — рост данных опережал развитие технологий хранения информации. Тогда IBM представила первый жесткий магнитный диск для хранения информации вне компьютера. После этого возникали новые проблемы, но тут же предлагались и новые решения. Например, целую революцию за последние 10 лет произвели платформы массивно-параллельной обработки и БД с хранением данных по столбцам — эти технологии позволили организациям проводить качественно новый анализ больших данных.
Что касается высказываемых в последнее время прогнозов, что большие данные могут подорвать производительность аналитического хранилища данных и вызвать проблемы с масштабируемостью, поддержкой большого числа пользователей, то такие опасения Андрей Хромов считает беспочвенными: “Все крупнейшие ИТ-компании предлагают решения, которые призваны помочь организациям справиться с нарастающими объемами, сложностью данных и их анализом. Конечно, тут есть свои трудности, но все они преодолимы с помощью уже предлагающихся на рынке решений. А в будущем будут появляться все более усовершенствованные технологии”.
По мнению руководителя по развитию бизнеса сектора финансовых услуг отделения IBM в России и СНГ Михаила Горбатовского, понятие Big Data обозначает новый феномен в аналитической обработке данных. Оно связано с четырьмя видами потребностей, которые ранее присутствовали только в отдельных уникальных проектах, а сегодня нужны все большему числу клиентов:
- скорость анализа: потребность в принятии решений все чаще смещается в сторону работы в режиме реального времени, что требует от аналитической системы выполнения расчетов с минимальными задержками. Если в традиционном хранилище отчет может строиться несколько часов, то в ряде задач произвести сложный анализ требуется за минуты и секунды на основе больших объемов данных;
- разнородность данных: для более глубокого анализа и более качественной поддержки решений в бизнес-среде востребованы возможности поиска закономерностей и ценной информации из всех доступных источников данных, внешних и внутренних, структурированных и неструктурированных. Примером внешних данных являются социальные сети и блоги, внутренних — геолокация, системные логи, поток информации с датчиков. Совместная обработка этих данных ранее была затруднена из-за ограничений технологий хранения и анализа данных;
- объемы данных: речь идет о двух типах задач, связанных с большим объемом данных на единицу времени (гигабайты в секунду) и большими объемами хранимых данных (петабайты). В первом случае алгоритмы анализа требуется применять для больших объемов данных и получать аналитику с низким откликом (например, надо рассчитывать риски по банковским операциям на рынках ценных бумаг для 10 млн. сообщений в секунду с откликом 80 мкс). Во втором случае ретроспективный анализ выполняется на всем объеме петабайтов транзакций, фото и видео, а также текстовых записей;
- глубина исследования данных: анализ нужно выполнять детально, на предмет зависимостей, аномалий, соответствия сохраненным шаблонам и т. п. Делать этом нужно зачастую в режиме диалога, коррекции схемы исследования в зависимости от получаемых результатов анализа. Поэтому модели, которые раньше использовались в десктопных системах исследования данных, сегодня должны анализироваться на больших объемах. Например, в онлайн-рекламе приходится индивидуально реагировать на тысячи, миллионы моделей поведения клиентов.
Заместитель директора департамента “Инжиниринговый центр” компании “Техносерв” Андрей Вакатов считает, что понятие Big Data объединило в себе массу подходов и методов обработки больших массивов данных. Сегодня все чаще бизнес-подразделения ставят перед ИТ задачи по обработке, анализу и сопоставлению уже накопленных или непрерывно поступающих данных. Это приводит к созданию разнородных инструментов и подходов, которые могли бы обеспечить достаточно быструю обработку и анализ информации. Взрывной интерес последнего времени к этой концепции вызван в первую очередь ростом потенциально полезных, но неструктурированных данных в глобальной сети.
Директор отделения технологического консалтинга компании ФОРС Валерий Юринский уверен, что Big Data — это действительно качественно новое явление в ИТ: “Уже более трех лет много пишут и говорят о больших данных в сочетании со словом “проблема”. Определений этому термину существует множество, но суть их можно свести к описанию ситуации, когда обработка и хранение больших объемов данных становится настоящей проблемой. Сейчас мы переживаем очередной этап технологической революции, характеризующийся тем, что имеем дело с данными, объем которых превышает возможности привычных нам технологических средств и потому требуется создание новых специальных инструментов для их адекватной обработки. Счет идет на сотни гигабайтов и далее до петабайтов, а в дальнейшем — зеттабайтов”. Он считает, что необходимо также учитывать такие факторы, как большое разнообразие данных, усложнение их структуры, возрастание числа отдельных элементов, скорости поступления и изменения данных, требование получения ответа системы в реальном времени и многое другое. И отмечает, что именно поэтому компания Gartner предложила формулировку “Big Data and Extreme Information Processing and Management” как более полную и лучше отражающую суть явления.
Свое понимание, что такое большие данные, эксперт группы перспективных технологий компании “Инфосистемы Джет” Сергей Артёмов сформулировал так: “Это маркетинговый термин. Как правило, под ним подразумевается большой объем плохо структурированных данных, обработка которых привычными методами невозможна или экономически нецелесообразна. Типичный пример — это записи о транзакциях (например, данные Call Data Records у сотовых операторах или данные платежей в процессинговых центрах), данные с телеметрических датчиков, журналы активности пользователей в крупных интернет-проектах или социальных сетях”.
Как это используется в мире
Валерий Юринский считает, что говорить о решении проблемы больших данных имеет смысл только в контексте наличия единой цепочки “данные — информация — знание”. Хранимые сведения обрабатываются не просто так, а для получения информации, которой должно быть ровно столько, чтобы человек мог превратить её в знание. Впрочем, нужно иметь в виду, что сегодня машины уже стали и основными производителями информации, и её потребителями. Поэтому сейчас прежде всего требуется обеспечить не интерактивную работу людей с данными, а их эффективный доступ к ним, а машины могли бы работать с машинами. Это необходимо для автоматизации рутинной деятельности по обработке наблюдений, поиску информации и т. п. Причем задача заключается еще и в том, чтобы по возможности устранить большинство неточностей данных, когда их значения известны с той или иной степенью погрешности. Для её решения требуются особые методы анализа и очистки, особенно для петабайтных объемов.
Большие данные меняют концепцию аналитики — с этим тезисом согласен и Андрей Хромов, который отметил, что в лавине информации главной проблемой становится поиск и выделение, причем часто в реальном времени, существенных для бизнеса сведений, а также их четкое и понятное представление: “В этой ситуации некоторые компании ищут решение, которое поможет им быстро устранить возникшие проблемы с традиционной архитектурой хранилища данных. Другие, более продвинутые, уходят от традиционных инфраструктур и осваивают новые технологии, например обработку и вычисление в оперативной памяти. Или даже рассматривают более федеративные архитектуры, которые позволяют абстрагировать и виртуализировать доступ к данным и анализ по всем распределенным хранилищам и архивам. Целью многих организаций в самом ближайшем будущем станет минимизация влияния больших объемов на производительность, материализации данных на стороне клиента перед проведением анализа, а также их зависимости от предварительно агрегированных данных”.
Александр Яковлев также уверен, что Big Data — это прежде всего новые возможности в современной аналитике: “Если огромные объемы данных хранятся консолидированно, то открываются качественно новые возможности для их совокупного и многостороннего анализа. С одной стороны, сбор и сохранение гигантских массивов информации стал возможен благодаря появлению облачных технологий, а с другой — облака в это же время представляют и практически неограниченные процессорные мощности, для обработки этих самых объемов данных, причем по очень эффективной и гибкой схеме. Поэтому сегодня ведущие поставщики наряду с построением и вводом в эксплуатацию глобальных облачных ЦОДов уделяют особое внимание и различным системам сбора данных — различного рода сенсорам, считывающим устройствам и другим относительно простым приспособлениям, обеспечивающим получение и передачу исходных данных. Сегодня они встраиваются в огромное количество устройств и приспособлений в медицине, ритейле, транспортных системах, системах управления движением и т. д. А уже после собранные данные анализируются на базе мощных облачных ЦОДов”.
Понятие Big Data появилось как отражение объективной трансформации подходов к работе с данными. Поясняя этот тезис, Максим Исаев отметил, что сегодня многие компании должны управляться в режиме онлайн, в том числе на основании потоков неструктурированных данных. Текущий инструментарий — программный и аппаратный — был заточен и разработан под совершенно другую практику. В качестве примера он приводит опыт Google, которой для обработки статистики поисковых запросов понадобились новые инструменты. Компания стала придумывать новые алгоритмы, а после того как она поделилась ими с общественностью, тема была подхвачена ИТ-производителями. При этом нужно понимать, что на рынке имеется большая маркетинговой составляющая, сейчас множество продуктов пытается примерить на себя эту новую “одежку”. Нужно иметь в виду, что изначально концепция Big Data развивалась как концепция работы с неструктурированными данными, однако сегодня это понятие стало шире, теперь под ним понимают и работу просто с большими данными.
Алексей Мещеряков уверен, что для компаний, ориентированных на повышение качества предоставляемых услуг, совершенствование работы с огромной клиентской базой и улучшение внутренних процессов управления, уровень использования технологий Big Data будет возрастать. Понимание возможностей и выгод, которые скрыты в больших массивах данных, и практическое применение методов углубленной аналитики обеспечат организациям дополнительные конкурентные преимущества. У поставщиков есть решения, которые позволяют обрабатывать данные в десятки раз быстрее, чем это было еще два-три года назад.
Сергей Артёмов считает, что проблема Big Data в принципе не нова и на рынке существует немало вариантов ее решения. Есть ряд коммерческих продуктов, имеющих множество инсталляций в самых разнообразных организациях и позволяющих создавать огромные хранилища данных и аналитические системы на их базе. Речь идет о системах подобных Oracle Exadata, IBM Netezza или продуктах компании Teradata. Но параллельно с промышленными решениями сейчас становится все более популярна модель работы с Big Data, реализованная в проекте Apache Hadoop. Уже сейчас множество вендоров стали использовать эту систему в составе своих решений, поэтому термин Big Data сегодня прочно ассоциируется именно с Hadoop.
С этим тезисом согласен Вячеслав Архаров: “Пожалуй, самой известной платформой Big Data сегодня является Hadoop, и наша компания также обеспечивает поддержку приложений Hadoop на своих платформах”. Он выделил в развитии направления Big Data несколько трендов.
Во-первых, это растущая сложность данных: исторически данные широко структурировались по типам. Успех поисковых систем и магазинов электронной торговли, которые открыли ценность данных о посещении веб-сайтов, развенчал миф о том, что неструктурированные данные не имеют ценности. Для многих предприятий все более актуальным сегодня становится требование анализировать и использовать как структурированные, так и неструктурированные данные.
Во-вторых, растущая сложность анализа: чем сложнее становятся данные, тем труднее их анализировать, например при обработке изображений для распознавания лиц, классификации поисковыми движками видео или использовании данных о посещении веб-сайтов для анализа поведения потребителей. Модели анализа транзакционных данных давно известны и являются зрелыми. Именно они в течение двух последних десятилетий способствовали развитию хранилищ данных и BI. Модели, с помощью которых можно собирать и анализировать сложные данные, только-только развиваются.
В третьих, растущие требования к BI: в среднем в компаниях количество пользователей, которые имеют доступ к инструментам бизнес-аналитики, составляет менее 20%, тогда как организациям все чаще необходимо буквально в режиме реального времени анализировать данные. Сочетание этих факторов дает толчок развитию аналитики и подготовке прогнозов в режиме реального времени.
В четверых, меняющаяся экономика вычислений: облачные вычисления и разнообразие используемых устройств радикальным образом уменьшают стоимость вычислительных мощностей и средств для хранения информации. Уменьшающаяся стоимость распределенных вычислений, памяти и систем хранения фундаментально меняют экономику обработки данных. Стоимость 1 Тб в современных хранилищах данных более чем вполовину меньше, чем три года назад, а облачные хранилища данных предлагают десятикратное преимущество в TCO по сравнению с традиционными системами on-premise.
И наконец, новые технологии: легко масштабируемое оборудование дополняется новыми фреймворками и инструментами для распределенной параллельной обработки данных, благодаря чему появляются недорогие платформы, предлагающие широкие возможности поддержки задач по обработке массивов данных.
“В своей жизни мы практически постоянно сталкиваемся с применением тех или иных методов объединенных определением “большие данные”, — сказал Андрей Вакатов. — Множество крупных компаний осознало, что кроме данных накопленных в собственных корпоративных сегментах, появилась не менее насыщенная информацией глобальная сеть. И эта информация может быть очень полезна компаниям, как с точки зрения текущей деятельности, так и стратегических направлений бизнеса”.
Характеризуя ситуацию в целом, Михаил Горбатовский прогнозирует, что поскольку спрос со стороны бизнес-компаний и госсектора на решение таких задач уже назрел, можно ожидать высоких показателей роста рынка этих решений.
Какова актуальность темы больших данных для России
Максим Исаев уверен, что в России спрос пока в стадии формирования: “Решения есть, а готовность заказчиков их внедрять на невысоком уровне. Сейчас вендоры всячески пытаются разогревать этот рынок. Думаю, в ближайшие год-два будут преобладать пилотные проекты. В нашей стране первыми технологии Big Data адаптируют те компании, которые тратят свой ИТ-бюджет на инновационные составляющие. Это банковская сфера и телеком, также к ним примкнет госсектор”. Он пояснил свой прогноз. В телекоме это может быть все, что связано с анализом абонентской базы. Например, социальный анализ: выявление связи между абонентами, групп, влияющих абонентов; анализ базы вкупе с данными социальных сетей и веб-приложений, геоинформационными данными. В российских банках использование Big Data будет, но с оговорками. На Западе наиболее активные пользователи — инвестиционные банки, работающие с большими потоками информации, поступающей с большого числа торговых площадок. Нашим банкам такого режима работы не нужно, поэтому их интересы лежат в плоскости снижения затрат на обработку данных и в организации более качественной работы с клиентскими базами. Госсектор, пожалуй, наиболее емкий с точки зрения применения Big Data, особенно в связи с переводом госуслуг в электронный вид и созданием электронного правительства объем задействованных данных растет на порядки. Одним из наиболее активных потребителей технологии больших данных становится медицина. Помимо названных отраслей хорошие перспективы у Big Data есть в логистике, ритейле, автомобилестроении. Правда, уточнил Максим Исаев, технологическая концепция в нынешнем ее виде ориентирована главным образом на крупных потребителей, применение Big Data целесообразно, когда объемы данных составляет сотни терабайтов.
По мнению Александра Яковлева, уровень актуальности больших данных сильно коррелирует с актуальностью облаков: “Хотя все же аспект облаков в России кажется намного важнее, так как именно здесь у нас есть отставание от остального мира как минимум на несколько лет. Уже сегодня можно создать облачное хранилище огромной емкости, высокой надежности, гибкое, недорогое и с использованием большого количества стандартных компонентов”.
Алексей Мещеряков считает, что тема больших данных с неизбежностью становится актуальной и для России, особенно для тех компаний, которые уже успели оценить преимущества аналитических процедур для своего бизнеса. Речь идет о банковских организациях, телекоммуникационных и страховых компаниях, розничных сферах торговли. Там накоплены огромные массивы данных по клиентам и операционной деятельности. А конкуренция заставляет использовать весь спектр доступной информации, включая и открытые источники. В числе новых аналитических методов, связанных с темой Big Data, Алексей Мещеряков назвал анализ социального окружения клиентов. В целом у финансовых институтов появляется понимание необходимости проводить детальный анализ своих данных с помощью современных аналитических решений, что позволит им избежать ненужной утечки капитала и потери репутации.
С тем, что большие данные нужны российским заказчиков, согласен Андрей Хромов: “Прежде всего, это касается компаний, у которых к настоящему дню накопились базы данных больших и очень больших объемов. Я имею в виду объемы в 1 Тб и выше. Во-первых, это компании, за много лет накопившие многотерабайтные базы, например крупные банки или федеральные ведомства. Ко второму типу обладателей больших данных я бы отнес тех, чья деятельность связана с необходимостью постоянного учета и переработки огромных объемов данных, в частности крупные телекоммуникационные компании, ежедневно обрабатывающие гигабайты CDR-данных. Еще одна категория компаний — те, чей бизнес связан с большим числом клиентов и большим и очень большим числом операций (сделок). Это крупные торговые сети. Сюда же можно отнести и те банки, которые активно развивают розничный бизнес, потребительское кредитование”.
Михаил Горбатовский перечисляет примерно такой же список: “К тем, кто в России интересуется решениями для больших данных, относятся инвестиционные и розничные банки, телекоммуникационные операторы, биржи, диспетчерские и ситуационные центры, транспортные компании, государственные учреждения. Но речь идет, конечно, только о крупных организациях”.
“Особенно остро в технологиях, способных обрабатывать неструктурированные массивы данных, нуждаются компании, работающие на высококонкурентных рынках: телекомы и финансовые структуры, — считает Андрей Вакатов. — Трудно сказать для каких предприятий или отраслей тематика больших данных не является интересной. Виртуализация и облачные вычисления все больше вовлекает в эту гонку сегмент малого и среднего бизнеса. И даже если они не готовы приобрести собственные решения для анализа Big Data, они будут генерировать спрос на анализ и обработку больших данных как услуги”.
По мнению Валерия Юринского, наша страна находится только в самом начале освоения темы больших данных, но интерес к ней растет: “Область, где с беспрецедентными объемами данных традиционно сталкиваются чаще всего — это сложные научные эксперименты в разных областях знания, а финансирование научных экспериментов в России сейчас не на самом высоком уровне. У нас пока нет крупных компаний-держателей больших данных, подобных Amazon или Google, однако их появление уже не за горами — в первую очередь это “Яндекс” и Mail.ru”.
Он также отметил, что на интерес к теме существенно влияет укрупнение бизнеса. До определенного времени крупные финансовые и телекоммуникационные компании в России имели децентрализованную распределенную структуру, сейчас же штаб-квартиры требуют от своих филиалов все более детализированные данные, которые затем нужно где-то хранить и как-то обрабатывать. К тому же все шире стали использоваться исторические и мультимедийные данные. Ссылаясь на мнения аналитиков, Валерий Юринский сказал о том, что под влиянием больших данных существенной трансформации подвергнутся сферы производства, здравоохранения, торговли, административного управления и наблюдения за индивидуальными перемещениями. Уже сейчас быстрый рост данных наблюдается в сфере телевещания и киноиндустрии, что связано с бурным развитием специализированных цифровых технологий, а также в социальных сетях, фармации, генной инженерии и нефтедобыче.
Сергей Артёмов считает, что Big Data это также актуально для России, как и для всего остального мира, но только к этой теме нужно относиться не как к неожиданно возникшей досадной проблеме, а как к новой возможности сделать свой бизнес более эффективным — использовать на полную катушку информацию, которая раньше не анализировалась или анализировалась частично. Это уже делают сотовые операторы, которые сейчас хранят и анализируют данные о звонках абонентов. На основе этой информации работает ряд информационных систем сотовых операторов: системы противодействия мошенничеству (Fraud Control), бизнес-аналитики и биллинговые системы.
В подобных решениях могут быть заинтересованы крупные онлайн-магазины, подобные Ozon.ru. По словам Сергея Артёмова, с помощью аналитики систем на базе Hadoop можно быстро формировать персональные рекомендации на базе совершенных ранее покупок для каждого клиента, а не просто предлагать сопутствующие товары. Также возможно рекомендовать другие варианты, которые почти наверняка заинтересуют покупателя, например новые книги авторов, которых ранее читал клиент, новые диски музыкальных групп, фильмы и т. д. Государственные заказчики также не исключение: на основе данных системы наблюдения за дорожным трафиком можно оперативно получать информацию о том, где камеры последний раз зафиксировали требуемую машину, ее маршрут, характеристики машинного потока, среднюю скорость движения, прогноз плотности трафика.
Проблемы на пути реализации идей Big Data
По мнению Александра Яковлева, не очень понятным остается вопрос форматов данных: “С одной стороны, мы имеем огромное количество различных типов хранимых данных, с другой — даже однотипные данные можно хранить в несовместимых форматах. Здесь мы уже приходим к постановке задачи о неком свободном формате данных, когда на момент сбора данных еще неизвестно, в каких приложениях и для каких именно целей они будут впоследствии использоваться. Но при этом нельзя допустить низкую эффективность или сильную избыточность хранимых данных”.
Пока российские пионеры освоения новых технологий не озвучат экономических эффектов от их использования, все остальные будут выжидать, присматриваться. Говоря об этом, Максим Исаев, проводит параллель с RFID: “Всем понятны преимущества, много пилотных зон, но широкого распространения технология не получила, потому что при нынешней цене на оборудование сфера ее применения ограничена. Но все опросы на Западе, да и у нас показывают, что множество компаний считают неструктурированные данные и те возможности, которые дает работа с ними, очень важными для бизнеса. Поскольку сейчас быстрыми темпами развиваются подходы к работе с большими данными (MapReduce, Hadoop), к моменту, когда российский рынок будет готов к проектам, мы будем пользоваться уже апробированными, зрелыми технологиями”.
Он отметил еще один момент: работа с большими данными невозможна без соответствующей заточки и программой части, и аппаратной части (“одна рука не хлопает”). Поэтому те компании, кто занимается и железом и ПО, быстро подхватили идею предоставления единого продукта, хотя для заказчика в таком подходе есть как минусы, так и плюсы.
Алексей Мещеряков сказал о том, что самым важным фактором для успеха больших данных является создание гибкой инфраструктуры, которая обеспечит правильное сочетание различных аспектов, затрагивающих данную технологию. “Прежде всего она должна опираться на бизнес-цели и бизнес-требования организации, — подчеркнул эксперт. — Необходимо учитывать такие важные составляющие, как доступ ко всем источникам данных в режиме, близком к реальному времени и даже в реальном времени, поддержку различных типов устройств, управление данными, интегрированную аналитику и т. д.”.
Андрей Хромов указал на наличие пяти факторов, которые определяют корпоративную аналитику: 1) рост объема данных, необходимость в больших объемах памяти; 2) рост числа пользователей; 3) отсутствие границ для неструктурированных данных — многообразность данных становится стандартом; 4) скорость попадания данных в систему; 5) качество данных. Далее он пояснил: “Расширение традиционной инфраструктуры в направлениях обработки данных в оперативной памяти и хранения данных по столбцам позволит компаниям анализировать как структурированные, так и неструктурированные данные в единой консолидированной среде, а также обрабатывать их в реальном времени и реагировать с наименьшей задержкой на события. Особенно это касается сред с произвольными запросами и различными профилями пользователей и запросов. Кроме того, инвестиции в мобильную аналитику позволят бизнес-сообществу получить максимальную ценность от данных и повысить производительность своих работников. Внедрение новых программных моделей, например фреймворка MapReduce, а также поддержка аналитическим сервером парадигм, обеспечивающих массивно-параллельные и распределенные вычисления, таких как Hadoop, позволит создать более управляемую, интегрированную и доступную аналитическую среду”.
Ценность систем, основанных на технологиях Big Data, состоит в качестве и скорости предоставляемой аналитики. Отметив это, Михаил Горбатовский отметил: “Так как подобные аналитические задачи, выходящие за рамки хранилищ данных, ранее для заказчиков решались только в отдельных уникальных проектах, то для запуска проектов на новом наборе технологий нужна разработка новых индустриальных моделей, показателей для конкретных типов клиентов. Кроме индустриальной направленности, требуется также креативный подход к исследованию данных — возможности по исследованию Big Data колоссальны”.
Андрей Вакатов уверен, что основная проблема — это дефицит квалифицированных ИТ-кадров, которых сейчас не так много как на российском рынке, так и на мировом.
“В компаниях, столкнувшихся с необходимостью обработки больших объемов данных, важно обеспечить возможность прозрачного масштабирования без прерывания их работы, — сказал Валерий Юринский. — В такой среде необходимо обеспечить возможность платить за ресурсы по мере роста при едином и простом управлении всеми элементами инфраструктуры. Поэтому мы считаем, что гибкая работа с большими данными невозможна без облачных хранилищ и облачных вычислений, причем в виде законченных решений. Однако сами по себе облачные технологии недостаточно эффективно работают с большими блоками информации. Очевидно, что требования к масштабированию систем хранения, аналитическим приложениям и соответствующим программно-аппаратным комплексам становятся все выше. Задача состоит в том, чтобы обеспечить максимальную производительность без кардинального наращивания серверов или дисковых массивов. Последние технологические достижения ведущих вендоров позволяют это сделать”.
Сергей Артёмов обратил внимание на то, что основной задачей клиента при решении проблем Big Data является выбор подходящей ему технологии: “Если организация не готова ждать адаптации своего ПО для работы с Hadoop или не имеет желания работать с СПО, то скорее всего взгляд будет направлен в сторону готовых систем. Если же речь идет о решениях на базе Hadoop, то на данном этапе я вижу три основные проблемы. Первая состоит в том, что эти системы не являются самодостаточным продуктом, подобно новому серверу или массиву. Таким образом, вариант “поставил новый, более мощный сервер и решил проблему” не работает. Второе — это правильное позиционирование систем. Их, разумеется, нельзя продвигать как универсальную замену больших баз данных, они конкурентоспособны в своей области приложения (анализ и обработка больших объемов разнородных данных). Наконец, подобные решения вышли на рынок относительно недавно и имеют ряд особенностей, которые надо учитывать при внедрении в промышленную эксплуатацию”.