Сегодня организации строятся на основе данных. Однако, стремясь стать управляемыми данными (data-driven), компании должны сохранять доверие к ним, что становится непростой задачей при огромных объемах данных, генерируемых и собираемых каждый день, пишет на портале Datanami Бидиш Саркар, старший вице-президент по данным и аналитике компании Persistent Systems.
Качество данных — еще один важный фактор, который необходимо учитывать. Согласно исследованию Monte Carlo «State of Data Quality Survey 2023», сегодня плохое качество данных оказывает негативное влияние почти на треть (31%) доходов среднестатистической организации, и этот показатель растет: в
Поскольку генеративный искусственный интеллект (GenAI), скорее всего, будет определять автоматизацию процессов принятия решений или предоставления предложений конечным пользователям, ожидается, что в ближайшие годы влияние качества данных станет гораздо более значительным. В связи с этим возникает вопрос об управлении (руководстве) данными (Data Governance, DG) и его важной роли в обеспечении качества, надежности и согласованности данных. Data Governance — это четко определенный подход к управлению данными в вашей организации с момента их приобретения и на протяжении всего их жизненного цикла (при внутреннем и внешнем обмене) и до момента их архивирования или окончательного удаления. Сообщество специалистов по данным и аналитике крупных предприятий все больше признает важность управления данными. Цифры подтверждают эту тенденцию: рынок DG растет ежегодно почти на 21%, а его объем в 2026 г. составит около 5,3 млрд. долл.
Руководство данными играет решающую роль в совершенствовании возможностей интегрированного анализа за счет обеспечения качества, надежности и согласованности данных. DG начинается с налаживания сотрудничества и согласованности действий заинтересованных сторон на предприятии, участвующих в интегрированном анализе, таких как аналитики данных, специалисты в области науки о данных, ИТ-специалисты и бизнес-руководители. Благодаря установлению четких ролей, обязанностей и каналов связи DG способствует межфункциональной командной работе и обеспечивает соответствие усилий по интегрированному анализу целям и приоритетам организации. Так, в одном из крупнейших мировых банков, занимающихся розничным обслуживанием, улучшение DG привело к ускорению и упрощению процесса подготовки персонализированных предложений в режиме реального времени с учетом индивидуальных требований, что на 30% повысило эффективность работы маркетинговой команды при запуске новых продуктовых предложений.
Как DG обеспечивает баланс между доступностью и безопасностью данных
Баланс между доступностью и безопасностью данных требует тщательного рассмотрения. Хотя предоставление авторизованным пользователям доступа к данным для принятия решений является жизненно важным, не менее важно защитить данные от несанкционированного доступа и утечки. Достижение такого баланса сопряжено с определенными трудностями, но внедрение средств контроля доступа помогает обеспечить безопасность конфиденциальных данных, оставляя их доступными для тех, кому они необходимы.
Кроме того, растущие объем и сложность данных еще больше усложняют задачу обеспечения их безопасности. Надежная система DG решает эту проблему, устанавливая четкие правила управления доступом к данным и их использованием. Это предполагает классификацию данных в зависимости от уровня их конфиденциальности и соответствующую приоритизацию мер безопасности. Кроме того, DG способствует прозрачности и подотчетности, поскольку позволяет отслеживать доступность и юзабилити данных с помощью аудиторских записей и журналов. Это дает организациям возможность отслеживать использование данных, выявлять несанкционированные действия и принимать необходимые меры для снижения рисков.
Организациям важно иметь рамки и директивы для определения политик и стандартов, протоколов контроля доступа, руководящих принципов классификации данных, а также общей политики мониторинга и контроля исполнения. Хотя такую инициативу часто возглавляет директор по данным и аналитике (CDAO), крайне важно привлечь к ее реализации директора по информационной безопасности (CISO) и отдел управления рисками и соблюдением нормативных требований, чтобы помочь определить различные политики и руководящие принципы. Часто в успешных организациях есть специальные распорядители данных (data stewards), назначенные отдельными бизнес-подразделениями для управления и защиты различных наборов данных.
Решение проблем, возникающих при внедрении DG
Самой большой проблемой при внедрении DG в организациях является сопротивление изменениям и культурные барьеры. В сочетании с проблемами владения данными и их подотчетности это часто создает значительные трудности для организаций с внедрением эффективного DG-решения. Первым шагом в успешном развертывании DG в масштабах всей организации является получение спонсорской поддержки со стороны руководства организации. Она должна быть неизменной и направленной на то, чтобы различные отделы и бизнес-подразделения поддержали эти усилия. Второй важный шаг заключается в том, чтобы донести информацию и продемонстрировать преимущества DG конечным пользователям. В этом отношении огромную помощь оказывает проведение проверки концепции на уровне конкретного подразделения или группы пользователей и использование этой группы в качестве проводника данного подхода.
В рамках проверки концепции необходимо принять решение о выборе конкретной платформы или набора инструментов для внедрения DG в организации. В настоящее время на предприятиях распространены два подхода к внедрению надежного DG-решения:
- Выбрать сквозную коммерческую платформу и настроить ее в соответствии с целями вашей организации. На рынке представлено множество платформ, которые могут помочь эффективно внедрить DG. Среди поставщиков DG-платформ можно назвать Collibra, Alation, Informatica, IBM, Ataccama и др.
- Использовать комбинацию инструментов, доступных в рамках текущей архитектуры данных предприятия. Например, если вы используете Databricks, вы можете эффективно применять в целях DG компоненты их платформы Unified Data and Analytics. Если вы используете одного из гиперскейлеров, то они предоставляют наборы собственных DG-решений в рамках своих аналитических экосистем.
После того как вы выбрали платформу или набор инструментов и провели успешную проверку концепции, чтобы убедиться, что ваш выбор отвечает вашим потребностям, вам нужно будет спланировать фактическое внедрение. Планирование поэтапного внедрения в организации имеет первостепенное значение для осуществления итераций и улучшений. Успех всей DG-инициативы часто зависит от сильного плана управления изменениями, который включает в себя непрерывные обучение и адаптацию.
И последнее, но не менее важное: централизованное владение имеет решающее значение при определении рамок и установлении руководящих принципов. Централизованная структура собственности гарантирует, что политики и стандарты управления данными устанавливаются и соблюдаются последовательно в рамках всей организации. Такой подход позволяет избежать путаницы, обеспечивает согласованность с целями организации, а также поддерживает целостность и безопасность активов данных.
Растущая потребность в федеративном управлении данными
Растущая сложность источников данных еще больше подталкивает компании к использованию федеративного DG. Например, одна из ведущих компаний медицинского страхования использует федеративное управление данными для повышения качества и эффективности оказания медицинской помощи пациентам.
Такой подход позволяет предприятиям достичь баланса между централизованной и децентрализованной моделями. Четкая ответственность на централизованном уровне устанавливает стандарты, в то время как отдельные подразделения контролируют конкретные источники данных. Это способствует единообразному управлению данными в разных отделах, как это реализуется в современных архитектурах типа сетки данных (data mesh). Централизованное управление конфиденциальностью и безопасностью обеспечивает соблюдение нормативных требований, независимо от происхождения данных и их использования в организации.
Влияние DG на интегрированный анализ
Подразделение специализированных рисков одного ведущего поставщика страховых решений сократило среднее время создания нового аналитического отчета с недели до менее чем трех дней за счет охвата DG всех своих информационных активов. Кроме того, это привело к тому, что все требования к соответствию, такие как GDPR и CCPA, были учтены заранее. Программа также повысила культуру работы с данными в организации, помогая бизнес-пользователям легко находить данные, которым они могут доверять. Она улучшила взаимодействие между отделом продаж и маркетинга и отделом рисков, позволив бизнес-пользователям связываться с владельцами данных и обеспечив легко понятную родословную данных.
Совершенствование DG при интегрированном анализе в эпоху ИИ
За последние несколько лет GenAI стал преобразующей силой в расширении возможностей как системы DG, так и интегрированного анализа. Благодаря своим возможностям по расширению наборов данных, выявлению аномалий, сохранению конфиденциальности данных и предиктивной аналитике, GenAI значительно улучшает методы DG и способствует принятию обоснованных решений. Его способность создавать синтетические данные позволяет дополнять существующие наборы данных, а алгоритмы обнаружения аномалий способствуют поддержанию качества данных. Кроме того, такие методы GenAI, как дифференциальная конфиденциальность, обеспечивают защиту конфиденциальной информации и позволяют организациям принимать упреждающие решения на основе шаблонов данных с помощью предиктивной аналитики.