Вопросы анализа данных всегда были важными для предприятий самого разного профиля. Новый импульс этому направлению в последнее время придает рост популярности Интернета вещей (IoT) и желание включить в аналитическую обработку большие данные. Наряду с коммерческим сектором растущий интерес к использованию аналитических систем проявляют государственные и надзорные органы. Разумеется, многие аспекты организации аналитической обработки в государственных структурах не очень сильно отличаются от того, как это делается в бизнесе. Тем не менее, есть ряд особенностей, которые следует принимать во внимание.
Хранилища данных
Ядром любой аналитической системы является хранилище данных. Так же, как и в коммерческих компаниях, объемы подобных хранилищ в госорганах за последние годы заметно выросли. Они измеряются десятками терабайт, причем нередко источники первичной информации распределены территориально по многим регионам страны, например, Пенсионный фонд РФ, Федеральная налоговая служба, Федеральная миграционная служба и др., у которых есть отделения во всех субъектах федерации. В этой связи особое значение приобретает интеграция данных из всех этих источников, включающая их предварительную очистку и последующую загрузку в хранилище. Как правило, госорганы собирают и обрабатывают персональные данные, что накладывает свои требования на используемые ими ИС. Информация в хранилище всегда должна быть актуальной, а получение ответа на тот или иной запрос достаточно быстрым. С этой целью мы в RedSys для анализа обычно применяем массово-параллельные многопроцессорные MPP-системы, подобные IBM Netezza. Они позволяют очень быстро обрабатывать огромные объемы данных. Их специфика в том, что данные «размазываются» по узлам системы, и аналитический запрос можно распределять по множеству серверных узлов и вести его параллельную обработку. Это позволяет увеличить скорость обработки на порядок по сравнению с традиционными решениями.
Особую категорию представляют собой хранилища больших данных, представляющих собой слабо структурированную информацию (изображения, тексты, показания датчиков). В государственных организациях они пока востребованы в меньшей степени, чем в коммерческих, но есть ряд ведомств федерального уровня (правоохранительные, силовые) где они применяются достаточно широко. Внутри самой организации собирается много логов из разных ИС, которые используются для обеспечения информационной безопасности или поддержания бесперебойной работы. Для оперативного анализа подобной информации она должна быть собрана в системе Big Data и после предварительной обработки загружена в аналитическое хранилище.
Технологически интеграция различных источников данных осуществляется теми же способами, что и в коммерческих организациях. Есть, впрочем, и определенные особенности, связанные с тем, что в государственных системах реализована поддержка Системы межведомственного электронного взаимодействия (СМЭВ). Для ее полноценного функционирования на базе хранилища создаются информационные витрины, на которые интеграторы, в свою очередь, «навешивают» те или иные СМЭВ-сервисы. Кроме того, согласно нашему законодательству, федеральные органы, которые обязаны вести специальные реестры, содержащие сведения, скажем, о пенсионерах, инвалидах, героях Советского Союза, а также о юридических лицах, индивидуальных предпринимателях и т. д. Эти реестры также строятся на витринах данных. Подобные СМЭВ-сервисы могут быть довольно простыми, но поток обращений к ним велик и он требует высокой скорости обработки.
Отчетность
Так же, как и в коммерческих предприятиях, перед государственными органами стоит задача выпуска своей регламентированной и управленческой отчетности. Следует отметить, что регламентированных отчетов в госструктурах гораздо больше, чем в бизнесе, и в ней отражается более широкий спектр показателей: на бумаге они занимают листы формата А3 и более. Кроме того, есть строгие правила дизайна макета подобных отчетов, отступление от которых запрещено. Все это предъявляет жесткие требования к инструментам, применяющимся для генерации отчетности. Обычно используется та или иная BI-платформа, которая служит также для генерации управленческой отчетности, отчетов произвольного вида и информационных панелей. В BI-проекте, реализуемом в одном из федеральных ведомств, специалисты RedSys используют продукт IBM Cognos BI, и, несмотря на его известные достоинства, нередко приходится проводить дополнительную настройку, требующую написания программного кода на Java и других языках. В государственной структуре, занимающейся надзорной деятельностью, RedSys для аналогичных задач применял Oracle BI, и этот инструмент не требовал дополнительного программирования при выпуске регламентированной отчетности. В частности, макет будущего отчета там можно просто «нарисовать» в Word, а затем остается только связать его с BI-слоем.
Мы в RedSys, разумеется, рассматриваем также варианты использования отечественных и Open Source BI-продуктов. В федеральных государственных органах приходится анализировать объемные OLAP-кубы, содержащие множество измерений и показателей. В наших больших OLAP-проектах мы использовали и планировали использовать OLAP-движки от IBM и Oracle — Cognos TM1 и Hyperion EssBase, но из-за существенного снижения курса рубля такого рода проекты не стали вписываться в заложенные бюджеты. Это заставило нас искать конкурентные отечественные решения. В частности, мы сейчас рассматриваем возможности использования продукта приемлемой ценовой категории компании «Полиматика», демонстрирующего рекордную производительность благодаря размещению OLAP-куба в оперативной памяти, а также применению технологий сортировки, оптимизированных для распределенной обработки на всех ядрах центрального и графического процессоров (Nvidia CUDA). Миллиарды записей общим объемом в несколько терабайт на стандартном сервере анализируются за секунды, при этом число измерений и показателей такого куба практически не ограничено, а размерность отдельных измерений может составлять сотни миллионов записей, и нет необходимости обращаться к предварительно вычисленным агрегированным значениям.
Генерация управленческой отчетности и построение информационных панелей в государственных организациях применяются не столь широко, как в коммерческих. При этом особая заинтересованность проявляется к инструментам, позволяющим быстро создавать необходимые представления тех или иных показателей, не привлекая для этого высококвалифицированных программистов. Такой подход требует, в свою очередь, более высокой квалификации пользователей из категории управленцев-аналитиков, которых в госорганах не так уж много. В разных организациях эту проблему решают по-разному. К примеру, в проекте RedSys в одной из крупных госструктур еще на этапе внедрения из сотрудников заказчика была создана группа техподдержки, которая постепенно освоила методологию работы с данными инструментами и теперь способна оказывать помощь сотрудникам из тех или иных профильных подразделений.
Аналитика
В последние годы резко вырос спрос на мобильную аналитику. Мы сейчас интенсивно внедряем подобные решения и у себя в компании, и у наших заказчиков, в том числе и из госсектора. Причина понятна: подобные устройства есть сегодня практически у каждого, и люди хорошо умеют с ними работать. Если определять BI в самых общих словах, то это набор своеобразных датчиков, характеризующих состояние бизнес-процессов. Наилучшим образом показания таких датчиков отображаются на информационных панелях, имитирующих приборную доску автомобиля или самолета (dashboard). А для их визуального представления как нельзя лучше подходят современные планшеты и смартфоны.
В компании RedSys одновременно ведется около 500 проектов, в которых участвуют более тысячи сотрудников из головного офиса и региональных подразделений. Руководителям подразделений постоянно требуются результаты анализа по двум направлениям: по текущему состоянию проектов и наличию ресурсов для их выполнения. В первом случае на панели отражаются показатели, характеризующие качество выполненных работ, сроки и трудозатраты, во втором — наличие необходимых людских ресурсов и реальный уровень их загруженности. Руководству гораздо удобнее иметь перед собой на экране мобильного устройства все эти показатели в любое время и независимо от своего местоположения. Инструменты для проектирования подобных панелей достаточно просты, они имеются в большинстве популярных BI-платформ и доступны рядовым пользователям. К сожалению, эти инструменты недостаточно развиты в BI-решениях Open Source.
Такие продвинутые технологии, как проактивная аналитика и углубленный анализ данных (Data Mining), пока что используются в государственных организациях довольно редко, хотя, думается, в контролирующих ведомствах, для них есть много областей применения. К примеру, подобные организации выдают лицензии на определенные виды деятельности, сопровождающиеся некоторым набором условий и сроков действия. Было бы полезно, если бы они могли оповещать обладателей этих лицензий о завершении сроков или выходе за рамки требований не постфактум, а заблаговременно. С применением Data Mining пока что ведутся, в основном, НИРовские и пилотные проекты. Один из них специалисты RedSys в прошлом году проводили в Федеральной таможенной службе с целью подбора необходимых аналитических инструментов для выявления по косвенным признакам подозрительных операций, связанных с контрабандой, занижением таможенной стоимости и т. д.
Автор статьи — директор департамента бизнес-приложений компании RedSys.
СПЕЦПРОЕКТ КОМПАНИИ REDSYS