«Если компания располагает данными, то они по-любому как-то управляются. Вопрос в том, насколько той или иной компании важно приложить немалые усилия для перехода на более высокий уровень зрелости в этом направлении, — заявила в своем выступлении на конференции DataTalks управляющий директор Accenture Digital в России Лариса Малькова. — Подобный переход требует освоения целого ряда практик, таких как управление архитектурой, мастер-данными, качеством и безопасностью данных. Делать это имеет смысл, если компания понимает, что в итоге получит значимый результат для своего бизнеса. Сложность же состоит в том, что бизнес получает выгоду не от управления данными, а от аналитических приложений, базирующихся на данных, и поэтому бывает трудно убедить руководство в необходимости долговременных инвестиций в Data Governance».
А что такое Data Governance? Мы журналисты нередко переводим этот термин как управление данными, но тогда — что такое Data Management? Сам формат конференции DataTalks, запущенной Ростелекомом с партнерами в 2019 г. как образовательная площадка по вопросам работы с данными, располагал к дискуссии на эту тему. Тем более, что сейчас DataTalks начала использоваться еще и для организации общения профессионалов в этой области.
По мнению Ларисы Мальковой, Data Governance — это целостная стратегия управления корпоративными данными. C помощью методологии Data Governance компания сможет извлечь максимальную бизнес-ценность из своих данных и стать более гибкой. А что говорится об этом в общепризнанных международных документах?
Один из них — DAMA-DMBOK (Data Management Body of Knowledge) — свод знаний об управлении данными, в котором впервые управление данными представляет собой отдельную корпоративную функцию, выпущенный международной ассоциацией управления данными DAMA (Data Management Association). Название перекликается с PMBOK, аналогичным сводом знаний по управлению проектами. После первого издания DMBOK, вышедшего в 2009 г., в 2017 г. появилось второе (DMBOK2), включающее практики работы с Big Data и этические аспекты управления данными.
В 2019 г. книга DAMA-DMBOK2 была переведена на русский язык и опубликована издательством «Олимп-Бизнес». Об этом на конференции рассказал управляющий партнер консалтинговой группы BSSG Юрий Клочко, принимавший непосредственное участие в переводе издания. По его мнению, эту книгу невозможно просто читать от начала до конца: скорее это справочник, к которому нужно обращаться по мере решения тех или иных задач.
При этом следует иметь в виду три базовых принципа. Данные — это ценный актив компании, который, как и любой другой актив, требует управления. Управление данными Data Governance (именно Governance, а не Management) — новая вертикальная корпоративная функция (подобная ИТ, HR, финансам), возглавляемая директором по данным (CDO). Управление данными не является частью ИТ-функции, а в большей степени относится к бизнесу компании.
Как вспоминает Юрий Клочко, перевод DMBOK на русский был необходим, в частности потому, что многие термины трактовались по разному и нередко конфликтовали друг с другом. В процессе перевода они сделали попытку обсудить русскоязычный глоссарий с комьюнити, но без особого успеха. В частности, не удалось прийти к общему варианту перевода термина Data Governance.
Какое-то представление о нем можно составить на основании так называемого колеса DAMA. Из него видно, что фреймворк DAMA включает 10 областей знаний Data Management. А Data Governance является еще одной, одиннадцатой, специальной верхнеуровневой дополняющей Data
Management областью знаний. Но поскольку предложенный перевод этого термина на русский не принят сообществом, чаще он применяется вообще без перевода. Юрий Клочко отметил, что DAMA-DMBOK не дает ответа на очевидный вопрос: существует ли Data Governance отдельно от упомянутых десяти областей знаний Data Management? Опыт показывает, что для выстраивания Data Governance обязательно использование шести лепестков колеса DAMA: архитектуры данных, моделирования данных, хранилища данных и бизнес-аналитики, управления метаданными, обеспечения качества данных, интеграции и совместимости данных.
При этом следует избегать трех распространенных ошибок применения рекомендаций DAMA: строить функции управления данными как развитие BI, недооценивать значимость моделирования данных и пытаться развивать Data Governance вокруг существующих ИТ-инструментов. Организационная структура, предлагаемая DAMA, предполагает наличие комитета по управлению данными, отвечающего за надзор, поддержку и финансирование. В ней также должны быть CDO, осуществляющий руководство Data-офисом, который определяет стандарты управления данными и контролирует их исполнение, владелец данных — руководитель департамента, владеющий бизнес-процессом, в котором создаются данные, и Data-стюард, отвечающий за данные и процессы в рамках своего департамента.
По словам Ларисы Мальковой, в ближайшие годы драйвером развития станет управление данными, исходя не только из их ценности для своего предприятия, а в силу того, что этого будут требовать его клиенты и партнёры. Если говорить о технологиях и архитектуре, то вскоре мы станем свидетелями перехода от гибридного хранилища данных и микросервисной архитектуры к облачной по своей природе, интегрированной с ИС на микросервисных принципах, открытой для партнёров и клиентов платформы данных, которая может стать фундаментом будущей экосистемы. Изменения коснутся и операционной модели управления данными: произойдет переход от нескольких самостоятельных центров компетенций к холократии — культуре, основывающейся на осознанности работы с данными каждым сотрудником предприятия.
Лариса Малькова отметила, что любой современный бизнес генерирует сегодня слишком много данных. И поэтому в погоне за полным покрытием бизнес-потребностей предприятия идеальные процессы и идеальные технологии можно строить годами. Однако, как правило, 90% нужд бизнеса покрывают всего
Видение Gartner
Точку зрения Gartner относительно современных трендов в области управления данными представил управляющий партнер этой исследовательской компании Максим Григорьев. Он посетовал, что в условиях пандемии и цифровой трансформации старые подходы нередко работают плохо. А все нынешние тренды можно отнести к одной из трех глобальных тенденций — ускорению изменений, операционализации бизнес-ценностей и полной распределенности.
Одним из таких изменений стало широкое применение технологий искусственного интеллекта. К 2024 г. 95% организаций, которые не смогут реализовать свои стратегии в области ИИ, будут отставать от своих успешных конкурентов на 10 лет. При этом и сам ИИ с каждым годом становится более «умным», ответственным и масштабируемым. Сегодня, по данным Gartner, лишь половина пилотных ИИ-проектов доводится до стадии промышленной эксплуатации. Благодаря улучшению алгоритмов обучения (адаптивных, активных, композитных и т. д.), ИИ становится более устойчивым, креативным и требует для обучения меньше данных (в частности, за счет замены реальных наборов синтетическими). Повышается интерпретируемость выводов ИИ, что делает его более этичным, прозрачным, безопасным и воспроизводимым. Кроме того, возможность интерпретации рекомендаций ИИ повышает уровень доверия к ним со стороны бизнес-персонала. Сокращаются сроки ввода в эксплуатацию решений на базе ИИ и получения экономического эффекта от них. Примерами успешного использования ИИ являются повышение точности обнаружения часто меняющейся тактики всевозможных мошенников, улучшение качества медицинской диагностики с расшифровкой выводов ИИ и детализация персонализации при многоканальном обслуживании клиентов.
К 2025 г. 50% предприятий разработают платформы оркестрации ИИ, применяющиеся на всех стадиях проекта от первых экспериментов до промышленного развертывания. В 2020 г. такие платформы были внедрены в менее чем 10% компаний. Подобные платформы относят к категории XOps, обеспечивающей сервисы инженерии данных (DataOps), разработки моделей (ModelOps) и разработки приложений (DevOps).
По мере роста сложности бизнеса и рыночной неопределенности аналитика данных превращается из некогда вспомогательного процесса в основной. Она встраивается в самые разные бизнес-процессы. К 2022 г. более 75% централизованных аналитических решений будут заменены гибридными моделями с разделением на локальные дата-домены и аналитику. А принятие решений будет осуществляться в том числе и на основе анализа рисков. Возникнет новый тип потребителя аналитики, которому недостаточно традиционных дэшбордов, а требуется более кастомизированное представление результатов: представление, которое он сможет сам реализовывать в качестве «гражданского разработчика» с помощью соответствующих инструментов и получать в результате инсайты на языке, близком к естественному, в реальном времени.
Согласно прогнозам Gartner, к 2023 г. 60% организаций будут использовать комбинацию минимум из трех аналитических инструментов и технологий (так называемые композитные решения) для построения систем поддержки принятия решений, способных извлекать инсайты и предлагать те или иные действия. Доступ к ним с помощью средств no-code/low-code получат и так называемые гражданские разработчики. Актуальным трендом становится композиция одном бизнес-решении разных приложений, данных и аналитических методов, включая и облачные, взамен традиционных монолитных систем. Отсюда следует, что необходимо научиться управлять всеми этими информационными активами.
ИТ-инфраструктура становится все более распределенной, и данные в ней распределены между ЦОДом, облаком и периферийными сегментами. В частности, как рассказал Максим Григорьев, к 2023 г. основная ответственность CDO будет распространяться на данные, созданные, управляемые и анализируемые в Edge-среде. Получит дальнейшее развитие концепция Data Fabric — соединительной ткани, или интеграционной матрицы, объединяющей различные источники данных, независимо от их физического местонахождения. К 2022 г. ручное управление данными будет сокращено на 45% за счет ИИ, машинного обучения и автоматизированного управления качеством сервиса. К 2023 г. композитные решения, использующие Data Fabric, на 20% снизят эксплуатационные расходы и сократят время получения аналитической информации, улучшив при этом ее интерпретируемость.
Чтобы обеспечить более широкий контекст для ИИ-аналитики, снизить потребность ИИ в больших объемах данных и как-то обойти сохраняющиеся проблемы применения технологии Big Data, к 2025 г. 70% организаций будут вынуждены переключить свое внимание с больших на «малые» (small) и «широкие» (wide) данные. Малые данные, несмотря на ограниченность их объема, вполне пригодны для ряда эффективных методов аналитической обработки. Широкие данные допускают осуществление содержательного анализа видео, аудио, текста, изображений с помощью методов X Analytics.
В Gartner также прогнозируют, что к 2025 г. в 80% инноваций, связанных со сбором и анализом данных, будут применяться технологии на основе графов (информации, представленной в форме узлов и ребер, а не традиционных таблиц). Полагают, что это будет способствовать ускорению принятия решений, поскольку позволит более точно выявлять взаимосвязи и взаимозависимости наборов данных.