Вопросы управления данными (Data Governance), которым раньше уделялись вторые роли среди рассматриваемых задач, способных оказать влияние на работу предприятий, в последнее время все чаще выходят на передний план. В век цифровизации и повального использования автоматизированных систем данные становятся ценным ресурсом, и легкомысленное отношение к ним не сулит ничего хорошего для устойчивой работы организаций, а тем более для их развития.
К сожалению, для решения вопросов управления данными на предприятии нужно преодолеть довольно много сложностей. Обусловлены они в основном историческим наследием в виде «зоопарка» систем и подходов к управлению, хотя отсутствие изначальной ориентации процессов управления на качество данных тоже стоит учитывать.
Взять, скажем, стандартную ситуацию, когда на предприятии существует несколько автоматизированных систем, которые внедрялись в разное время и, что очень важно, разными командами с разным мировоззрением и различными подходами к автоматизации.
Как следствие — применение разных форматов данных (простой пример: хранение адреса — в ФИАС-структуре или в обычной строке), разная идеология их хранения и использования (транзакции с суммами вычетов или накопленный итог), а также исторически сложившиеся процессы заведения и изменения данных (заводят и ведут в Excel-таблицах или структурированно в SQL через интерфейс). Все это приводит к тому, что данные состоят из разных кусков, которые хранятся в разных системах и заводятся с разными процедурами обеспечения качества, нацеленными на различные результаты и далеко не всегда объединенными одним устремлением...
Описанная ситуация, конечно, выглядит не очень красиво, но так ли она плоха, чтобы вкладываться в её исправление? Опыт подсказывает, что да, исправлять надо.
Приведённые примеры являются типовыми и встречаются у большинства компаний, с которыми мы работали. Эти типовые проблемы постоянно требуют трудозатрат (ежеквартально и ежемесячно) на сведение данных для получения нужных отчетов и принятия управленческих решений. Особенно критична для сотрудников такой компании ситуация с частыми и внезапными требованиями со стороны руководства подготовить и представить определенную статистику, которая в большинстве случаев не повторяется (т. е. каждый раз нужны данные не по одному и тому же клиенту и не в одном и том же разрезе). А подобные запросы отвлекают ресурсы на сведение и подготовку данных, приостанавливая выполнение основной работы, часто на значительный промежуток времени.
Если все эти затраты суммировать, то даже за один год сумма может получиться весьма внушительной. А при отсутствии системного подхода к интеграции между приложениями разрозненные данные гарантированно превращают такие запросы руководства в трудно решаемые квесты с вечерними, а иногда и ночными посиделками персонала в попытках разобраться и свести данные в читаемую и правдивую версию. И нужно заметить, что версию правдивую удается получить не всегда. Зачастую при решении подобных задач сотрудники подгоняют данные под правдиво с их точки зрения выглядящий вариант, при этом результат может действительно оказаться правдой, а может быть и ее полной противоположностью, что в свою очередь приведёт к принятию неправильных решений, а затем к упущенной выгоде или даже к прямым убыткам.
С чего же начать налаживание процесса управления данными? Первое, что приходит в голову, — переделать всё и начать с чистого листа. Разработать методологию управления данными, определить точки их заведения и ответственных за качество, экспертов для решения трудных вопросов, требующих обращения к внешним источникам, а также руководителей, которые будут распределять нагрузку и следить за исполнением процедур качества. Фактически с нуля будет спроектирована бизнес-модель управления данными на предприятии. Далее эту модель нужно «натягивать» на существующие особенности предприятия, и вот тут начинаются основные проблемы её внедрения. То схема централизованного заведения справочных данных (так называемых «мастер-данных») не позволяет оперативно добавлять, например, контрагентов в системы, а это важно для бизнеса (как известно, клиент ждать не будет), то получающаяся структура данных не подходит к какому-то доисторическому приложению, то источники частей одних и тех же данных распределены территориально и не могут быть собраны в одном месте в силу специфики производства (а как вводить централизованно данные, источники которых не централизованы?). Если квалификации и терпения сотрудников, а также поддержки руководства и понимания со стороны бизнес-пользователей хватает для работы над такой задачей, то она в конечном итоге будет решена и результат может быть весьма хорошим и показательным для отрасли. Но по статистике не каждой команде дается возможность для столь большого и рискованного шага, зачастую требующего немалых ресурсов, как временных, так и финансовых.
Поскольку дисциплина Data Governance — понятие довольно обширное и не имеет единой автоматизированной системы, которая закрывала бы собою все задачи управления данными, то возможен вариант постепенного наращивания функционала. Здесь уже появляется некоторая вариативность в зависимости от потребностей организации и возможностей группы внедрения. Первое, что можно сделать, это скорректировать управление данными в существующих производственных системах: ввести ролевую модель и распределить обязанности и полномочия на заведение и проверку данных, чтобы их вводили и проверяли опытные эксперты, а не все пользователи систем. Дополнительно можно добавить процедуру перекрестной проверки данных между системами, например, в аналогичных системах проверять наличие данных, которые уже введены, и в свою систему вводить их подобным образом, без противоречий с введенными. Если же противоречия неизбежны, то инициировать процедуру исправления недостоверных данных. Второй шаг — настроить процессы извлечения данных из систем трансформации и загружать их в нужные представления (ETL — Extract, Transform & Load). Другими словами, так как структура данных в каждой системе приспособлена под определенные цели именно этой системы, то для корректной передачи данные нужно привести к единой системе значений и детализации. Делается это без изменения точек ввода и без существенного усложнения процесса контроля за качеством вводимых данных, практически все остается, как было. При этом бизнес-процессы компании не меняются и внедрение проходит довольно безболезненно. Получаемые при этом плюсы — готовые процедуры выгрузки и необходимых преобразований данных, которые можно многократно применять по запросу. Как правило, инструменты ETL позволяют быстро дополнять и менять настройки трансформации, что дополнительно сокращает издержки. Минусы, конечно, тоже есть: отсутствие управления качеством данных, контроля за их ведением.
Одновременно с ETL желательно внедрить корпоративную сервисную шину данных (Enterprise Service Bus, ESB), поскольку это позволит автоматизировать процесс доставки нужных данных в нужные места к нужному времени, гарантировать такую доставку и централизовать управление интеграцией. Выполнения этих двух относительно простых пунктов иногда хватает для существенного прорыва в качестве работы с данными. Некоторые на этом останавливаются, так как дальнейшие действия для организаций определенных отраслей и размеров потребуют бОльших вложений в изменение процессов работы, нежели возможный эффект от их реализации.
Однако мы постараемся пройти весь путь до конца.
После закрытия самых базовых потребностей в Data Governance можно говорить о полноценном контроле качества данных. Но любой контроль возможен только в том случае, если есть параметры для его ведения. Решается это с помощью профилирования данных. Определяются параметры, которые будут контролироваться, вводится понятие «качественные данные». Все эти мероприятия, проводимые с использованием специализированных систем, позволяют начать полноценную работу по улучшению качества данных и поддержанию их в этом состоянии.
Поддерживать данные в качественном состоянии можно с применением процедур Data Quality. Это довольно серьезный механизм, требующий существенной проработки деталей: назначения ответственных (Data Steward), разработки методологии, использования автоматических систем. Зато при использовании этих механизмов можно говорить о качественных, непротиворечивых, достоверных, неповторяющихся данных.
Еще одним большим пластом работ является процесс внедрения инструмента управления мастер-данными (Master Data Management, MDM). Он необходим для управления процессом сбора данных, их верификации, дедупликации и превращения обычного хранилища в хранилище чистых, верных, идеальных данных. Исполнение этой части влечет за собой существенное изменение работы предприятия с данными. Ставятся на контроль точки их заведения, регламентируются любые изменения, вводятся новые роли (эксперты), для которых разрабатываются процедуры и инструменты помощи в принятии решений в случае противоречий. Процесс усложняется и удлиняется по времени, но при этом существенно растут качество, достоверность и «сводимость» данных всех систем. Как дополнительный бонус мы получаем возможность замены любой устаревшей системы на новую без потери важных для компании данных. Рассматривать управление мастер-данными в этой статье мы не будем, так как это большая тема, заслуживающая отдельного обзора.
Таким образом, процесс перехода к управляемым данным может быть разделен на несколько хоть и взаимосвязанных, но отдельно решаемых частей. Как видно из написанного выше, существует не один путь решения проблем управления данными (в различных вариациях их наберется по меньшей мере несколько). Внедрять ли их одновременно либо очередями, каждая команда должна решать в зависимости от задач и потребностей бизнеса, от имеющихся ресурсов, как финансовых, так и интеллектуальных и временных.
СПЕЦПРОЕКТ КОМПАНИИ DATAREON