ПРОЕКТЫ

Статистическое ведомство РФ переходит на новые ИТ-рельсы

Накопление данных в больших организациях выводит на первый план технологии их анализа. Особенно большое значение придается им в организациях, главной задачей которых является производство консолидированной информации. Федеральная служба государственной статистики (Росстат) - как раз такая организация. Ежегодно она собирает гигабайты разнородных статистических данных, которые должны быть обработаны и представлены в виде статистических сводок и комплексов показателей состояния экономического и социального развития страны. Источниками данных являются различного рода анкетные обследования, касающиеся, например, бюджетов домохозяйств, статистические отчеты предприятий, данные министерств и ведомств и многое другое. А основными потребителями продукции Росстата выступают государственные структуры - Правительство РФ, Администрация Президента, министерства и ведомства. Работа строится по программному принципу на основе ежегодно формируемого перечня статистических работ, которые должен выполнить Росстат, а также ряд других госорганизаций.

По словам Татьяны Аксеновой, заместителя начальника управления финансово-хозяйственного, информационного и производственно-технологического обеспечения Росстата, сбор статистической информации осуществляют 89 территориальных органов этой службы, каждый по своему субъекту Федерации. В сборе таких данных принимают участие районные отделения территориальных органов, число которых в разных субъектах различно. В этих отделениях, как правило, производится лишь первичная обработка данных (например, на предмет выявления явных ошибок), а их агрегация и более сложный анализ выполняются на уровне территориальных органов в субъектах федерации и на федеральном уровне. Таким образом, информационная система ведомства носит разветвленный и территориально распределенный характер.

Для поддержания производственной деятельности Росстата информационные технологии используются уже давно - работа службы немыслима без них. Но новые требования к эффективности функционирования федеральной службы выявили необходимость дальнейшего развития информационно-вычислительной системы (ИВС). Проект по ее модернизации был начат в декабре 2002 г. Подрядчиком для его проведения была выбрана компания IBS.

Технология обработки статистической информации в Росстате

Структура создаваемой ИВС отражает структуру организации и представляет собой трехуровневую иерархическую модель, включающую федеральный, региональный и районный уровни. В соответствии с проектным планом было разработано и осуществляется внедрение 17 прикладных подсистем, создана программно-техническая инфраструктура для 18 объектов, 15 из которых являются территориальными органами Росстата. Среди разработанных подсистем можно выделить несколько основных компонентов, в том числе новую аналитическую подсистему и корпоративный Web-портал. Внедрение каждого из этих компонентов представляло собой отдельный проект, хотя оба решения и интегрированы между собой.

Аналитическая система

Целью проекта была разработка технологии и методологии, а также развитие программных средств по созданию и ведению единого хранилища статистических данных федерального и регионального уровней, их оперативной аналитической обработки в рамках общей программной среды и общей технологии ИВС Росстата.

Создаваемые подсистемы федерального и регионального уровней должны были решить такие задачи, как эффективное хранение и использование интегрированных данных для решения аналитических задач, объединение информации различных баз данных (в том числе баз данных длительного хранения, центральной базы статистических данных, региональных и отраслевых БД), эффективное использование объединенной, интегрированной информации, в первую очередь для выпуска регламентных документов (отработка регламентированных запросов) и формирования нерегламентированных запросов, исполняемых в оперативном режиме.

Приоритетным направлением было внедрение в автоматизированные процессы производства статистической информации технологий хранилищ данных и OLAP-обработки и их опробование на ряде конкретных задач. Технологии хранилищ данных и OLAP являются новыми для Росстата и до настоящего момента в качестве базового элемента производства статистической информации не использовались.

В результате анализа текущего состояния и тенденций развития рынка готового ПО и требований (по состоянию на 2003 г.), предъявляемых к нему со стороны заказчика, были определены следующие три базовых программных продукта: СУБД для построения хранилищ данных регионального уровня (Microsoft SQL Server 2000), СУБД хранилища данных федерального уровня (Oracle9i Database) и комплекс программных средств фирмы MicroStrategy, выступающих в роли базового средства разработки приложений OLAP, анализа данных информационных хранилищ в архитектуре интранет, интерфейса конечных пользователей, генерации и распространения отчетов.

Если на первые два продукта выбор пал в первую очередь потому, что они уже активно применялись в Росстате и хорошо зарекомендовали себя, то критерии выбора третьего продукта более интересны, хотя бы потому, что направление OLAP российскими ИТ-специалистами изучено гораздо хуже направления СУБД.

По словам Сергея Долженкова, ведущего системного архитектора IBS, этот выбор определило прежде всего наличие у MicroStrategy средств углубленного автоматизируемого анализа информации (технологий Data Mining), таких, как анализ временных рядов, сегментация, выявление трендов, проверка статистических гипотез, классификация данных, корреляционный анализ и обнаружение скрытых зависимостей, визуализация связей, проверка гипотез, анализ изменений, прогнозирование и др. Другим немаловажным фактором было наличие в ПО средств доставки результатов анализа и обработки информации, представленных в виде различного рода отчетов и документов, конечным пользователям в любое место через Web, е-mail и беспроводные приборы. Критически важна была также масштабируемость платформы Business Intelligence (так позиционируется на рынке система Microstrategy) для работы в среде Интернет/интранет и наличие развитых средств интеграции приложений.

OLAP-система на федеральном и региональном уровнях опирается на соответствующие хранилища данных. Они содержат как детальную, так и консолидированную статистическую информацию, загружаемую из всевозможных источников, в том числе из различных баз данных Федеральной службы государственной статистики. Данные в хранилище загружаются в соответствии с заданными регламентами работы Росстата. Одним из важных результатов внедрения хранилища является обеспечение единого подхода к именованию и хранению данных на федеральном и региональном уровнях.

Этапность

Внедрение системы началось в 2004 г. Проект был разбит на несколько региональных пилотных проектов и пилотный проект, осуществляемый в "центре", в который условно входят Центральный аппарат (ЦА) Росстата и Главный межрегиональный центр обработки и распространения данных (ГМЦ) Росстата. Региональная часть решения установлена в территориальных комитетах Москвы, Московской области, Санкт-Петербурга и Ленинградской области.

В ходе проекта была перенесена часть данных с унаследованных СУБД на новые, проведена интеграция с существующими системами. В ЦА и ГМЦ, соединенных оптоволокном, установлены пары серверов OLAP и хранилища данных, причем содержимое хранилищ данных на этих объектах синхронизируется (одно хранилище функционирует в рабочем режиме, а другое находится в "горячем" резерве). В регионах также на каждом объекте установлены сервер OLAP и хранилище данных, хотя и меньшей мощности.

С точки зрения содержания реализовано пять пилотных проектов, четыре из них касаются создания многомерных баз данных для исследования демографической ситуации; для анализа данных обследования домашних хозяйств; для отработки взаимодействия с подсистемой подготовки публикаций; для хранения и анализа отдельных показателей системы национальных счетов, а пятый - создания базы данных длительного хранения на примере формы статистической отчетности П4. Проведены работы по локализации продукта MicroStrategy и его адаптации к требованиям Росстата.

Основные трудности внедрения, с которыми столкнулись разработчики, - это изменение требований к подсистеме в ходе реализации проекта, что является как следствием углубляющегося со временем понимания заказчиком внедряемой технологии. Также весьма серьезной оказалась сложность предметной области, а это потребовало от исполнителя значительных усилий по ее изучению, а от заказчика - ощутимых трудозатрат на консультации исполнителя. И наконец, сложностью системы объясняется необходимость глубокого обучения персонала заказчика, в особенности его должностных лиц, которые будут отвечать в дальнейшем за развитие и сопровождение модели предметной области (метаданных).

В настоящее время пилотная часть проекта находится в стадии завершения, и вскоре планируется начать массовое внедрение. Предполагается дальнейшая глубокая интеграция подсистемы с подсистемой сбора и обработки статистической информации для поддержки полного цикла производства статистической информации.

"Система позволит существенно повысить общую эффективность работы Росстата, особенно за счет повышения оперативности и качества выполнения запросов, поступающих от различных органов государственного управления. Немаловажно еще и то, что мы получили возможность опробовать на практике программные средства нового поколения, открывающие дальнейшие перспективы развития информационно-вычислительной системы", - считает Татьяна Аксенова.

Web-портал

Проект корпоративной Web-системы Росстата был призван повысить эффективность информационного взаимодействия этой службы с субъектами, использующими информационные ресурсы системы государственной статистики и (или) участвующими в сборе статистических данных. Например, он должен снизить трудоемкость сбора статистических данных от подотчетных субъектов, а также обеспечить их доступ к ИВС Росстата, в частности к системе аналитической отчетности. Портал позволяет также анализировать запросы к предоставляемым им ресурсам и оценивать их востребованность.

Эти глобальные функции опирались на типовые портальные механизмы - авторизованный доступ, поиск информации по собственным и интегрированным информационным хранилищам, сервисы подготовки и публикации материалов, обмен данными с внутренними системами заказчика, включая интегрированную ИВС Росстата.

К программным платформам для создания Web-системы предъявлялись довольно жесткие требования. Принимались продукты, не просто функционально полные, но и имеющие большое число успешных внедрений, высокую надежность и безопасность, техническую поддержку в Москве и регионах, а также соответствующие международным техническим стандартам и обладающие необходимой степенью готовности обслуживающего персонала и пользователей к работе с этими продуктами.

По результатам анализа представленного на рынке программного обеспечения для создания корпоративных Web-систем были выбраны две альтернативные платформы - Microsoft Content Management Server 2002 в сочетании с Share Point Portal Server 2001 (региональный уровень) и IBM WebSphere Portal Server (федеральный уровень). Основываясь на своем опыте создания Web-систем на базе продуктов Microsoft, IBM и Oracle, компания IBS сочла более эффективным с точки зрения разработки и затрат на обеспечение безопасности использовать в данном проекте продукт производства IBM.

Внедрение проходило одновременно с внедрением аналитической системы. Основными сложностями оказались высокая требовательность заказчика к дизайну подсистемы, а также перенос в сжатые сроки большого объема уже существующего контента на новую подсистему как в центре, так и в регионах.

Сейчас закончена пилотная фаза проекта и предполагается дальнейшее расширение подсистемы за счет увеличения числа регионов ее внедрения, а также наращивания функциональных возможностей и контента. Особенно важное направление развития - интеграция в портал системы статистического анализа, также имеющей Web-интерфейс.

Помимо программной части проект предусматривает модернизацию аппаратной базы - в частности, создание телекоммуникационной инфраструктуры вместо старых каналов. Все территориальные органы Росстата должны быть подключены к интранету выделенными линиями. Это качественно новый способ взаимодействия подразделений.

Извлеченные уроки

По словам Александра Антонова, руководителя проекта со стороны IBS, подобные проекты требуют от разработчика глубочайшего понимания той предметной области, где они реализуются. Поэтому необходимо заранее планировать время на ее изучение, находить и выделять специалистов, которые будут этим заниматься. Заказчику же необходимо с пониманием относиться к тому, что на первых этапах проекта ему придется обучать исполнителя. А самый верный путь - включение в коллектив исполнителей представителей заказчика, являющихся носителями его "сокровенных знаний и опыта".

"Эти обстоятельства очень сильно проявились в нашем проекте, - говорит г-н Антонов. - Там, где предметное взаимодействие было налажено с самого начала, дела шли хорошо. В противном случае выяснялось, что результат, несмотря на его формальное соответствие ТЗ, заказчика не устраивает. Со всеми вытекающими последствиями. Внедрение новых систем и технологий такого масштаба, как в данном проекте, затрагивает интересы многих людей, находящихся порой на самых различных должностных уровнях организации заказчика. В конечном счете, наибольшее влияние это оказывает на конкретных исполнителей, тех людей, которые своими руками реализуют основные производственные функции. Поэтому важнейшим условием успеха проекта является начало работы с этими людьми на самых ранних этапах проекта, исполнителей надо сделать своими соавторами и союзниками, а не говорить им: "Забудь все, что ты делал раньше, а я теперь расскажу тебе, как надо по-настоящему работать...".