Благодаря большим данным и новым технологиям бизнес-аналитики уже в ближайшие 5—10 лет окружающий нас мир заметно изменится в лучшую сторону: города “поумнеют”, избавятся от пробок и научатся экономить на электроэнергии. Мониторинг физического состояния людей в реальном времени обеспечит хороший уровень профилактики, больным поможет быстрее выздороветь, а активное проникновение Big Data в госсектор окажет влияние на деятельность госструктур и даже на политическую ситуацию в стране. Эти оптимистичные мнения прозвучали в ходе пресс-конференции аналитической компании IDC, прошедшей в рамках московского IDC Big Data and Business Analytics Forum '2013.
Аналитик из IDC Александр Прохоров напомнил, что его компания отслеживает тренды бизнес-аналитики уже много лет, и то, что сегодня называется “большими данными”, безусловно перспективно, хотя в России этот рынок пока не обсчитывается в силу молодости. Некоторые оценки таковы: российский рынок BI и хранилищ данных в 2012 г. составил 340 млн. долл., из них 100 млн. пришлось на долю SAP, остальные на IBM, Microsoft, Oracle и SAS. А вот в мире уже сложилась экосистема Big Data, к которой IDC относит также решения, напрямую связанные с этой концепцией (BI, облачные технологии, средства организации данных, услуги по сопровождению и т. д.). В 2012 г. рынок этот составил 8 млрд. долл., а к 2016-му превысит 20 млрд. Быстрее всего растет ниша систем хранения данных (СХД), затем — облачная составляющая. Интересно, что доля услуг падает, так как увеличивается объём решений под ключ, а также облачных сервисов, где усилия по сопровождению и администрированию серверной части берёт на себя провайдер.
В России вовсю реализуются десятки пилотных проектов по большим данным, прежде всего в телекоме, что немудрено: их CRM-системы обслуживают, наверное, уже более 100 млн. пользователей. Немало банков (от ЦБ до “Тинькоффа”) пытаются с помощью анализа больших данных бороться с финансовым мошенничеством. Интересуются новой технологической концепцией и госструктуры — демонстративно активна ФНС.
Развиваются и внутрикорпоративные проекты: например, “Яндекс” стал использовать технологии MapReduce еще задолго до массового распространения Hadoop, а сейчас совершенствует свою систему обработки больших данных “Крипта”, предназначенную для детального изучения профилей пользователей и социально-демократического таргетинга. Ежесуточно 130 серверов “Крипты” перемалывают терабайты сведений о каждом из нас.
Директор “Терна” Екатерина Лозовая напомнила, что её компания занимается этой тематикой еще с середины 1990-х, причем явного деления на большие данные и бизнес-аналитику не делается, это вещи тесно взаимосвязанные. Подобные подходы востребованы везде, где требуется выявлять неочевидные закономерности в объёмных потоках информации, в тех же крупных банках или телекоме. Так, ВТБ24 решает эти вопросы с 2001 г. Разнородные данные присутствуют повсеместно, их надо “почистить”, изучить и визуализировать. Пока, к сожалению, такие технологии ещё не дошли до малого бизнеса, однако без сомнения они востребованы и на этом уровне. Екатерина Лозовая попросила передать “большое спасибо” крупным отечественным промышленным структурам — “Сургутнефтегазу” и ММК, где еще с 1997 г. успешно реализуются проекты по обработке больших на то время данных, и эти организации наглядно показали, как надо правильно строить бизнес.
Станислав Семененко из Microsoft уточнил список структур, где развиваются пилотные проекты: помимо связи и банков это также торговля и ИТ, а фактически любые сферы, где конкуренция высока, а работа ведется с физическими лицами — хотя в будущем подобные технологии непременно будут востребованы и на рынке B2B. Владельцы СМБ пока не готовы инвестировать это направление и не понимают своей выгоды, но в долгосрочной перспективе они наверняка проиграют в конкурентной борьбе. К стратегическим направлениям развития больших данных Станислав Семененко отнёс облака и мобильные системы.
Александр Яковлев из Fujitsu полагает, что первый технологический цикл спирали развития больших данных прошел — ведь первоначально это были в основном научные исследования применительно к специфическим задачам. Большие данные сегодня — это лавинообразный рост информации, стимулирующий и другие направления: прежде всего развитие новых СХД, а также облачных технологий, средств параллельной обработки данных и т. д. Фактически тут возникает феномен “суммы технологий”.
Сегодня Big Data уже превратились в полноценный бизнес, потому что внедрение подобных систем приносит заметный доход. Например, ритейл может резко увеличить доходность на десятки процентов, чему множество примеров.
Понятно, что для реализации таких проектов, объединяющих самые разные технологии, и специалисты нужны соответствующие. Борис Буланов из Informatica отметил, что системы больших данных отличаются от более известных на рынке хранилищ тем, что они могут расти практически беспредельно, а вдобавок обрабатывают неструктурированные данные в реальном времени и с учётом контекста использования конкретных информационных посылок. Подобная профессия называется “Data science”: человек должен знать методы математической статистики, тематику анализируемой прикладной сферы и ИТ. По причине столь высокой сложности на стыке технологии и бизнеса проектов Big Data пока мало. Но, например, телекому они нужны буквально для выживания, как и любым другим организациям, где есть риски (страховые, финансовые и т. д.). В качестве положительного примера Борис Буланов привёл “Вымпелком”, который подошел к проекту большой аналитики не как к ИТ, а как к бизнесу.
Дополнил коллегу Артур Хачуян из организации ARDA, которая уже готовит таких специалистов, успешно оптимизирующих петабайтные системы c ежесуточным мониторингом терабайтов данных. Особое внимание он рекомендует уделять визуализации информации: когда нужные сведения представлены на экране или табло в подобающем формате, они сразу становятся репрезентабельными.