Цифровизация все больше влияет на различные отрасли экономики: промышленность, транспорт, медицину, образование и др. Значительное внимание уделяется в том числе и работе с большими данными, поскольку их объем постоянно растет. Рассмотрим, как новая гибридная архитектура помогает обеспечить наиболее эффективное хранение и управление данными, на примере задач капитального строительства.
Как компании работают с данными
Потребность в корпоративных хранилищах данных (КХД) изначально сформировалась в основном в секторе enterprise, где для учета бизнес-показателей начали использовать разные информационные системы. Сегодня востребованность КХД в частном секторе сохраняется — в том числе в крупных компаниях. Такие решения наиболее актуальны в промышленности, финансовой отрасли, ритейле, телекоме. По оценкам рынка, внедрение КХД может принести бизнесу около 400% ROI и сократить издержки более чем на 60% в течение 5 лет. В условиях роста данных возникает и необходимость в средствах для управления и обработки этих массивов (Data Governance, DG), таких как СУБД. Ожидается, что этот сегмент российского ИТ-рынка будет ежегодно увеличиваться примерно на четверть.
Сегодня КХД и средства для управления данными наиболее активно применяются в крупных компаниях, в которых есть несколько направлений деятельности, юридических лиц или учетных систем. Такие организации собирают, обрабатывают и анализируют большие объемы информации — и составляют разнообразные отчеты на их основе. Это актуально и для предприятий, которые осуществляют капитальное строительство и, в частности, проводят мониторинг его процессов.
Создание централизованного хранилища для мониторинга процессов капитального строительства
Бывает так, что компании не понимают ценность КХД и до его постройки проходят несколько этапов: использование электронных таблиц, микс аналитических систем у нескольких подразделений, единая система со множеством разных моделей данных.
В большинстве случаев для мониторинга процессов капитального строительства применяют имеющуюся у заказчика аналитическую систему (Business Intelligence, BI), на базе которой разрабатывают отчеты и экранные формы. Хотя в настоящее время методология наблюдения за процессами капитального строительства уже хорошо проработана, ее реализация с помощью классических BI-систем может сопровождаться рядом трудностей. Большая часть сложностей возникает в процессе формирования отчетности и вызвана тем, что капитальное строительство относится в бухгалтерском учете к «основной производственной деятельности». Чтобы получить корректную наглядную информацию, необходимо иметь источники данных, оперирующие как финансовыми, так и натуральными показателями. Так, процесс мониторинга капитального строительства строится минимум по четырем источникам:
- системы класса ERP («1С», SAP);
- системы календарно-сетевого планирования (Primavera, AVEVA или аналоги);
- системы договорной деятельности на базе документооборота;
- локальные файлы, неучтенные собственные системы и другие теневые продукты данных, такие как портальные средства для работы с подрядчиком или другие решения, предоставляющие оперативную информацию о ходе строительно-монтажных работ (СМР).
Сложности могут встречаться и при необходимости «состыковать» данные систем класса MES и ERP. В зависимости от архитектуры перечень источников данных может быть дополнен системами HR или отдельно стоящими системами бухгалтерского учета. Кроме того, если компания имеет холдинговую структуру, то источники данных могут быть разными в нескольких дочерних обществах. Например, такое возможно в области календарно-сетевого планирования или в контуре ERP.
При этом надо понимать, что большинство перечисленных выше систем могло внедряться в разное время независимыми подрядчиками, перед которыми не ставили задачу выравнивания аналитик. В итоге это может привести к следующим сложностям:
- команды сотрудников в одной организации могут описывать одни и те же понятия разными терминами;
- состав и этапы жизненного цикла объектов данных, детализация и количество аналитик отличаются в разных системах;
- большинство связей между данными имеет отношение «многие ко многим», поэтому для точного сопоставления информации между двумя системами могут требоваться данные из третьей;
- структура, качество, достоверность, а также владелец данных неизвестны;
- разные системы могут использовать данные из нескольких источников, а описание связи систем в ландшафте редко содержится в едином документе;
- по итогам длительной эксплуатации систем их наполнение данными может существенно отличаться от того, как изначально было разработано, запланировано и задокументировано.
Классический проект, выполняемый по методологии «водопад», подразумевает разработку решений, их реализацию и запуск. Если же в качестве ядра для системы мониторинга капитального строительства выбирается BI-система, то в проектных решениях сначала описывают и фиксируют необходимые интеграционные интерфейсы, экстракторы и способы построения аналитических кубов для их последующего отображения. Затем по этим решениям реализуется BI-система. При этом опытно-промышленная эксплуатация чаще всего показывает невозможность проведения анализа на предоставленном наборе данных. Среди причин — нехватка или низкое качество информации в системе, недостаток разработанных функций и т. д.
Что может пойти не так?
После начала продуктивной эксплуатации системы на базе BI может выявиться ряд проблем.
- Отсутствие выровненной аналитики. Например, исходное требование отчета предполагает шкалу с детализацией «до недель». Но самое простое требование — изменение периода предоставления данных: от «за неделю» к «по месяцам» вызывает необходимость полной переработки решения. В отчете могут фигурировать как календарные месяцы и недели, так и отмеряемые с начала проекта, при этом недели не начинаются обязательно с первого дня месяца. Формирование же ежедневных аналитических срезов с их последующим агрегированием внутри BI-системы может привести к падению производительности либо самой системы, либо систем-источников, либо компонентов транспортного слоя.
- Низкое качество данных. Качество данных может не соответствовать определенным ожиданиям, решаемым задачам или интерпретируемости в контексте аналитик. Очень редко исполнители получают полный доступ к продуктивным данным заказчика, а тестирование на ограниченном объеме чаще всего не выявляет всех тонкостей. В итоге уже через три-четыре месяца эксплуатации системы возникает необходимость в дополнительных изменениях или использовании другого источника данных. Естественно, заказчик трактует данную ситуацию как гарантийный случай, а исполнитель настаивает на «запросе на изменение».
- Преобразование данных на стороне систем-источников. Например, для повышения эффективности системы управления запасами используется механизм, в рамках которого система с заданной периодичностью распределяет имеющиеся остатки материалов между потребностями в зависимости от их приоритетности. При этом ERP-система не предназначена для восстановления информации о наличии и обеспеченности потребности на какую-то конкретную дату в прошлом. Иногда при внедрении ERP-системы реализуют механизм хранения этой информации, но скорость ее предоставления недостаточна для использования в управлении капитальным строительством.
Эффективное решение — единая система хранения и управления данными
Этих проблем заказчик может избежать, если исполнитель рассмотрит принципиально другой подход к созданию архитектуры системы, который базируется на следующих принципах работы с данными:
- для хранения данных используется озеро данных, на базе которого может быть создано классическое КХД;
- вся информация от доступных систем-источников попадает в озеро с максимально доступной степенью детализации как по времени, так и по набору аналитик;
- для ручного ввода используются интерфейсы, позволяющие загружать данные из шаблонов (пакетная загрузка) или через формы ввода;
- каталог данных дает возможность предоставить информацию о наборах данных в источниках, в озере данных и хранилище, определять права доступа к данным, закреплять владельцев;
- вести список терминов и описание базовых понятий (глоссарий), документировать методологию, сопоставлять словарь бизнес-определений с данными информационных систем;
- система обеспечения качества данных должна описывать требования со стороны потребителей и подходить для контроля и корректировки входящей и обрабатываемой информации;
- система предоставления данных управления капитальным строительством реализуется на базе in-memory или других оптимизированных СУБД, необходимых для высокопроизводительной поддержки BI-систем и сервисов, поиска данных и формирования отчетов;
- все сложные преобразования и формирование витрин данных должны осуществляться в одной из подсистем платформы с использованием оптимальных инструментов для каждого вида изменений.
Критерии выбора исполнителя
Помимо выбора архитектуры решения, следует определить требуемые компетенции исполнителя. Здесь важно учитывать два основных фактора. Во-первых, невозможно построить отдельное озеро данных на базе КХД только для задач анализа инвестиционной деятельности. Другими словами, если капитальное строительство является лишь первым шагом в инвестиционной деятельности, то исполнитель работ должен уметь строить системы для разных видов работ и данных. Во-вторых, у исполнителя должен быть подтвержденный опыт построения действительно больших масштабируемых хранилищ.
Дополнительные эффекты и преимущества при внедрении единой системы хранения и управления данными
Внедрение единой системы хранения и управления данными, помимо очевидных преимуществ, связанных с быстродействием и гарантированностью результата, несет в себе и другие выгоды:
- Все исходные данные для исследования доступны в каталоге, нет необходимости каждый раз обращаться к системе-источнику. Их легко сохранить в озере с использованием типовых потоков загрузки. Все необходимые работы будут затрагивать только платформу и BI-систему.
- Однозначно определяется ответственность за предоставляемые наборы данных вместе с обеспечиваемой прослеживаемостью — от показателя в отчете через методику расчета до исходных систем. Такой подход существенно упрощает анализ корневых проблем и планирование мероприятий по их устранению.
- Открываются возможности по расширению или детализации уже готовых аналитических продуктов (отчетов, дашбордов, моделей), существенно упрощается поиск нужных для таких модификаций данных, а также снижается риск разработки анализа на неподходящих данных.
- Если какой-то из источников будет модернизирован или полностью заменен, это не скажется на работе системы управления инвестиционной деятельностью. Изменения затронут лишь витрину данных, а имеющаяся BI-отчетность будет работать в том же режиме как по данным исходного, так и обновленного источника.
Сегодня бизнес активно внедряет и использует разные ИС, которые учитывают и анализируют много показателей. При этом подходы к представлению финансовых и натуральных данных в разных информационных системах могут отличаться. Если мы хотим построить цифрового двойника, на базе которого будем осуществлять мониторинг капитального строительства, то этот процесс будет связан с необходимостью интеграции большого числа разнородных источников. В этом случае для успешного результата нам нужно использовать КХД и Data Governance.
Организация корпоративного хранилища данных позволяет оперативно получать необходимую информацию в нужном формате и способствует значительному повышению эффективности процесса принятия решений. Результаты анализа данных помогают руководству компаний видеть общую картину бизнеса и выбирать эффективные методы по дальнейшему развитию как отдельных направлений, так и бизнеса в целом. Благодаря хранилищам данных компании могут использовать весь информационный потенциал, который ранее содержался в разнородных источниках.