Многие руководители ИТ-подразделений не знают, с чего начать и во что инвестировать для решения унаследованных проблем обработки данных и достижения долгосрочных целей. Президент компании StarCIO Исаак Саколик рассказывает на портале Enterprisers Project, что необходимо знать об инструментах обеспечения качества данных и управления мастер-данными (master data management, MDM), а также о практике их применения.
Если данные — это новая нефть, то организации должны создать свои нефтеперерабатывающие предприятия. Высокооктановые данные служат топливом при создании стратегических преимуществ в движимых данными организациях, использующих аналитику и разрабатывающих модели машинного обучения. Руководителям следует применять проактивную модель управления данными, чтобы проверять качество данных, создавать источники мастер-данных и совершенствовать каталоги данных. Для управления данными требуется распределить обязанности, стандартизировать работу с данными, наладить партнерские отношения и довести до степени зрелости использование многочисленных платформ обработки данных.
Для многих руководителей проблема заключается в том, чтобы понять, с чего начать и во что продуманно инвестировать для решения унаследованных проблем обработки данных и достижения долгосрочных целей. В крупных организациях присутствует набор потребностей бизнеса и возможностей использования аналитики и машинного обучения, но имеется слишком много платформ, обладающих разнородными функциями и перегруженных маркетинговым жаргоном.
У руководителей часто возникает много вопросов по поводу улучшения интеграции и качества данных, в том числе такие:
- можно ли повысить точность и надежность данных с помощью инструментов обеспечения качества данных или платформы MDM?
- есть ли необходимость в интеграции данных, инструментах извлечения-преобразования-загрузки (Extract-Transform-Load, ETL) или платформе потоковой передачи данных?
- как руководителям оценить организационные возможности, потребности бизнеса и платформы при наличии разнородных потребностей?
Более сложные возможности обработки связаны с точностью и надежностью данных.
Следует знать следующие три вещи о платформах и практике обеспечения качества данных и управления мастер-данными.
1. Качество данных и мастер-данные
Инструменты обеспечения качества данных предоставляют сочетание профилирования данных, средств автоматизации и рабочих процессов обработки исключений для решения различных проблем качества данных. Некоторые распространенные проблемы качества данных включают очистку физических адресов, дедупликацию записей клиентов и нормализацию полей, используемых для классификации данных.
Инструменты MDM помогают организациям создавать и поддерживать драгоценные первичные записи о банковских счетах, контактах, продуктах и других справочных данных. Эти инструменты позволяют управляющим данными определять правила объединения конфликтующих данных из многочисленных источников в очищенные записи. После этого специалисты по данным и разработчики приложений могут использовать мастер-данные в моделях машинного обучения, аналитике и интегрированных приложениях с помощью API.
Организации, стремящиеся превратить данные в стратегическое преимущество, часто требуют качества данных и управления мастер-данными. Но для организаций, только приступающих к управлению данными, соответствующие инструменты могут оказаться слишком сложными.
Поэтому организации, имеющие множество внутренних и внешних источников данных, которые никогда не профилировались и не очищались, могут начать с платформы качества данных. В последующем руководители поручат гибкой команде специалистов по данным ликвидировать задолженность по очистке данных и постепенно повышать их качество.
С другой стороны, если непрофессионалам, работающим с данным и разрабатывающим приложения, требуется доступ к небольшому числу первичных записей, лучше начинать с создания платформы MDM. Она предоставит единый источник данных и обеспечит двустороннюю интеграцию с системами, которые потребляют и обновляют записи.
2. Повышение качества данных требует гибкой практики работы и автоматизации
Существует ложное представление, будто инструмент повышения качества данных автоматически устранит все проблемы. К сожалению, накопившиеся проблемы можно решать только поэтапно. Особенно если источники данных быстро меняются, данные извлекаются из документов и других неструктурированных источников или вводятся в формы без надлежащей проверки.
Другое заблуждение заключается в том, будто повышение качества данных можно полностью автоматизировать. К сожалению, автоматизация правил, касающихся исключений и резко отличающихся значений, требует дополнительных затрат. Более разумный подход состоит в предоставлении управляющим данными готовых инструментов.
Повышение качества данных требует гибких методов работы. Команды могут использовать автоматизацию для решения определенных проблем в приоритетных источниках данных. Далее управляющим данными требуются операционные процессы, инструменты и метрики, чтобы решать проблемы и обрабатывать исключения. К сожалению, управление качеством данных — это не бесплатный сыр.
3. Покупайте модели данных вместе с платформами MDM
Платформы MDM представляют собой главный узел, в котором осуществляются действия, связанные с потреблением и очисткой данных. Например, клиентская платформа может интегрирлваться с корпоративными системами CRM и ERP, с инструментами автоматизации маркетинга, системами управления контентом и с инструментами поддержки клиентов. Она может обмениваться данными с любой из этих систем. Когда клиент обращается в службу поддержки для смены своего платежного адреса, система поддержки производит изменения в MDM, после чего другие системы получают обновленную информацию.
Но сегодняшние
За последние годы инструменты обеспечения качества данных и MDM проделали значительный путь. Все больше организаций привлекают к работе с данными сотрудников, не имеющих специальной подготовки, используют аналитику и машинное обучение. Когда руководство согласовывает между собой должностные обязанности сотрудников, гибкие методы обработки данных, автоматизацию, операции с данными и платформы их обработки, это обеспечивает обработку данных, необходимую организациям сегодня для сохранения конкурентоспособности.