Под термином Big Data в различных контекстах сегодня понимают и сами большие данные, и технологии их обработки, сформировавшиеся за последние несколько лет. Это в первую очередь массивно-параллельная обработка данных (Hadoop/MapReduce, NoSQL базы данных и др.) и технологии in-memory. Первыми заказчиками и за рубежом, и в России оказались банки, телекоммуникационные компании и ритейлеры. В сферу государственного управления проекты с применением технологий Big Data пришли только недавно.

Главная отраслевая особенность здесь связана с назначением и характером прикладного использования технологий больших данных. Ведь в госсекторе накопились огромные массивы данных, в том числе неструктурированных, которые надо обрабатывать, чтобы извлекать полезные знания. Поэтому со стороны госструктур мы наблюдаем растущий интерес к такого рода решениям.

Принципиальным отличием проектов Big Data в госсекторе является то, что в качестве успеха проекта рассматривается не коммерческая выгода, а способность решать важные социальные задачи, создавать общественное благо. К примеру, с помощью этих технологий можно обеспечить персонализацию государственных сервисов и услуг, предвидение и предотвращение угроз национальной безопасности, катастроф и стихийных бедствий, выполнение различных социальных программ в области здравоохранения и социальной защиты, предотвращение попыток мошенничества и преступлений в области налогового законодательства и многое другое.

Другой класс задач связан с лингвистическим анализом текстов, семантическим поиском, извлечением дополнительных знаний из неструктурированных документов и пр. Это пока не массовые, а скорее штучные проекты, но со временем мы перейдем и к типовым промышленным решениям.

Надеемся, что мощным драйвером развития этих технологий в России станет принятый правительством курс на применение программных продуктов с открытым кодом. Все основные разработки, пришедшие из мира Big Data, относятся к open-source, что делает их использование в стратегически важных проектах безопасным и прозрачным, а также — что не менее важно — снижает стоимость проектов и дальнейшего владения ИТ-системами. Отметим, что речь не идет о замене традиционных продуктов — реляционных СУБД на Hadoop или NoSQL. Будущее — за гибридными системами.

В целом рынок больших данных в России только формируется, большинство наших проектов являются демонстрационными или пилотными, а на создание устойчивого спроса уйдет несколько лет. Поэтому мы затрачиваем много усилий на информирование потенциальных заказчиков, демонстрацию готовых, работающих решений в различных индустриальных областях, на обучение и консультирование, тестирование и проведение исследований. Мы также работаем над адаптацией готовых зарубежных продуктов к российской специфике. К примеру, обеспечиваем возможность применения специальных технологий для анализа русскоязычных текстов, который требует специального инструментария для учета морфологических, синтаксических и семантических особенностей конкретного языка, прежде всего русского.

Однако хорошим знаком является то, что ряд министерств и ведомств уже сделали конкретные шаги в этом направлении. Так, в сентябре 2014 г. Министерством культуры РФ был проведен конкурс на выполнение НИР «Исследование вопросов применения новых технологий обработки больших данных в сфере информатизации культуры».

ФНС России также объявила конкурс на создание программно-аппаратного комплекса автоматизированных средств перекрестных проверок, реализующих функции камеральной налоговой проверки налоговых деклараций. Как известно, задача предотвращения мошенничества и уклонения от уплаты налогов относится к классу именно тех задач, которые успешно решаются при помощи технологий Big Data. Такая система может быть реализована на базе вычислительного кластера HBase, нереляционной распределенной колоночной СУБД с открытым исходным кодом, работающей поверх файловой системы HDFS. По сравнению с классическим решением на реляционной СУБД решение на HBase более простое в реализации, более производительное и, главное, менее дорогостоящее.

Другая важнейшая область применения технологий Big Data — «умные города», а Москва развивается именно в этом направлении. Реализуются отдельные проекты с применением технологий Hadoop и нереляционных СУБД. Так, создаваемая в Москве интеллектуальная транспортная система предполагает использование в качестве одной из своих подсистем блок навигации всего городского транспорта. Для обеспечения требуемой скорости записи и чтения данных, а также масштабируемости с учетом постоянного увеличения объектов, передающих информацию, в качестве решения предлагается использовать нереляционную колоночную СУБД, например Cassandra или Riak. Конкурс на разработку системы уже объявлен, и в течение года она должна быть запущена в работу.

В правительстве Москвы тоже проявляют интерес к новым возможностям, которые предоставляют технологии Big Data. В частности, стартовало несколько пилотных проектов по обработке обращений граждан с использованием инструментария Hadoop. Поскольку при создании крупных информационно-аналитических систем и ситуационных центров используются мощнейшие аналитические хранилища данных, размеры которых могут достигать нескольких десятков терабайт, то технологии больших данных будут широко востребованы и здесь.

В настоящее время запущен федеральный проект по созданию ГИС ЖКХ, в рамках которой также могут локально применяться нереляционные СУБД, например при необходимости собирать показания с приборов учета. Компании — разработчики ПО для ЖКХ при создании прототипов таких систем используют NoSQL базы данных.

Мы уверены в том, что это только начало пути и через несколько лет начнется активное внедрение платформ для углубленной аналитики не только в федеральных ведомствах, накопивших максимальные объемы данных, но и в органах местного самоуправления. Все предпосылки для этого есть — и технические, и социально-политические.

Автор — директор отделения аналитических технологий компании «ФОРС».

СПЕЦПРОЕКТ КОМПАНИИ «ФОРС»