Чтобы извлечь из данных коммерческую ценность, предприятиям необходимо иметь правильную архитектуру данных, при этом решающее значение имеют правильные руководство и культура бизнеса, считают опрошенные порталом ComputerWeekly эксперты.
Когда речь идет о бизнес-информации, перед ИТ-директорами (CIO) и директорами по данным (CDO) стоит задача навести порядок в хаосе.
По мере того как компании собирают все больше данных, они сталкиваются как с коммерческим давлением, требующим больше работать с имеющейся у них информацией, так и с растущими нормативными требованиями к управлению данными, особенно если они касаются клиентов.
Ситуация усложняется еще и тем, что для хранения и манипулирования данными существует целый ряд инструментов — от озер данных и дата-центров до объектного хранения, машинного обучения и искусственного интеллекта.
Согласно исследованию Seagate, до 68% бизнес-данных остаются неиспользованными. В результате компании упускают преимущества, которые должны обеспечивать данные. В то же время они сталкиваются с рисками, связанными с госрегулированием и соблюдением нормативных требований, если они не знают, какие у них данные и где они хранят.
Чтобы решить эту проблему и заставить данные работать на бизнес, компаниям необходимо обратить внимание на архитектуру данных. На самом простом уровне архитектура данных — это знание того, где находятся данные организации, и отображение того, как данные проходят через нее. Однако, учитывая огромное количество источников данных и способов манипулирования и использования данных, единой схемы для этого не существует. Каждой организации необходимо создать архитектуру данных, которая будет отвечать ее собственным потребностям.
«Архитектура данных — это много вещей для многих людей, и легко утонуть в океане идей, процессов и инициатив», — говорит Тим Гарруд, эксперт PA Consulting по архитектуре данных. Фирмам необходимо обеспечить, чтобы проекты по архитектуре данных приносили пользу бизнесу, добавляет он, а для этого нужны знания и навыки, а также технологии.
Однако часть проблемы для CIO и CDO заключается в том, что технологии приводят к усложнению как управления данными, так и их использования. Как отметила в 2020 г. консалтинговая компания McKinsey, технические дополнения — от озер данных до платформ клиентской аналитики и потоковой обработки — чрезвычайно усложнили архитектуру данных. Это затрудняет для компаний управление существующими данными и предоставление новых возможностей.
Переход от традиционных реляционных систем баз данных к гораздо более гибким структурам данных — а также сбору и обработке неструктурированных данных — дает организациям возможность делать с данными гораздо больше, чем когда-либо прежде.
Задача CIO и CDO состоит в том, чтобы связать эти возможности с потребностями бизнеса. Создание архитектуры данных должно быть чем-то бóльшим, чем просто ведение ИТ-хозяйства или обеспечение соответствия требованиям.
«Мне нравится задавать вопрос: „Что мы можем сделать с лучшими данными такого выдающегося?“, — говорит Гарруд. — Если ответ не сопровождается сформулированной бизнес-проблемой, тогда этим следует заняться». После этого наступает очередь физической архитектуры данных, потоков данных и интеграции источников данных и приложений.
Что такое архитектура данных
Архитектуру данных часто описывают как схему управления данными. Безусловно, эффективная архитектура данных должна отображать потоки информации в организации.
Это, в свою очередь, основывается на хорошем понимании собираемых и хранимых данных, систем, в которых они хранятся, а также режимов регулирования, комплаенса и безопасности, которые применяются к этим данным.
Компаниям также необходимо понимать, какие данные являются критическими для операций и какие из них приносят наибольшую пользу. Поскольку организации хранят и обрабатывают все больше информации, это становится все более важным. Иногда это больше искусство, чем наука.
«Это искусство — понять, что существует немного принципов, которых действительно нужно придерживаться, и понять, какие данные являются ключевыми для организации, — говорит Тим Боус, заместитель директора по инженерии данных в консалтинговой компании Dufrain. — В организациях имеется огромное количество данных, но не все из них являются абсолютно ключевыми для успешной работы. Понимание того, какие данные являются ключевыми, имеет фундаментальное значение».
Архитектура данных должна быть связана со стратегией организации в области данных и жизненным циклом данных, но она также зависит от рационального управления данными.
Часто организации разделяют свою архитектуру данных на две части: предоставление данных и их потребление или использование.
С точки зрения предоставления, CIO и CDO необходимо обратить внимание на источники данных, включая транзакции, бизнес-приложения, действия клиентов и даже датчики. Что касается потребления данных, то речь может идти об отчетности, бизнес-аналитике, расширенной аналитике и даже МО и ИИ. Некоторые компании также могут стремиться к дальнейшему использованию данных, продавая их или используя для создания новых продуктов.
Относительная важность этих составляющих будет определять архитектуру данных.
Консалтинговая компания KPMG, например, применяет в архитектуре данных подход «четыре С» — create, curate, consume and commercialise (создание, курирование, потребление и коммерциализация). По словам Ника Уитфилда, руководителя отдела данных и аналитики KPMG в Великобритании, создание и курирование относятся к стороне предложения, тогда как потребление и коммерциализация — к использованию. Для каждой стороны может потребоваться своя архитектура данных.
«Я не думаю, что у какой-либо организации может быть единая, однородная архитектура данных. Для различных целей существуют различные типы архитектуры данных, — говорит он. — И это больше, чем просто модель данных. Это совокупность процессов и систем управления, вспомогательных технологий и стандартов данных. Все это вместе гарантирует, что данные хорошо организованы и хорошо контролируются — так что они точно проходят через ваши бизнес-процессы».
Зачем и как внедрять архитектуру данных
Причиной создания или обновления архитектуры данных могут быть как изменения в технологии, так и изменения в бизнесе.
Изменение основного компонента ИТ- или аналитических систем организации дает возможность еще раз взглянуть на потоки данных. А переход на облачные технологии предлагает способ обновления потоков данных без необходимости замены систем по принципу «lift and shift». При этом могут быть внесены для каждого приложения или каждого проекта.
«Часть роли архитектора данных заключается в том, чтобы обрисовать картину того, как могут выглядеть преимущества, — говорит Гарруд. — Но он также должен определить, что нужно изменить и какие новые потоки нужно добавить в конвейер».
Этому также способствует переход от хранилищ данных к озерам данных, поскольку данные больше не должны быть привязаны к конкретным приложениям.
«У фирм появляется множество новых источников и данных, — говорит Роман Голод, технический директор и соучредитель компании Accelario, специализирующейся на операциях с данными. — Им необходимо не только перейти к непрерывной интеграции между различными источниками, но и к новым технологиям, включая веб-сервисы и облако».
Он отмечает, что большинство, возможно 80%, предприятий все еще работают с локальными системами. Но новые возможности все чаще приходят из облака или гибридных технологий. Это позволяет компаниям еще раз взглянуть на столь важную схему или поток данных, определить новые источники данных и запустить более продвинутую аналитику, а также MО и ИИ.
Но прежде чем это сделать, организациям необходимо навести порядок в своем «доме данных».
Обеспечение качества данных и управление мастер-данными, строго говоря, не являются частью архитектуры данных, но качественные данные остаются жизненно важными для достижения бизнес-результатов архитектурного проекта. Эксперты, работавшие над крупномасштабными проектами архитектуры данных, говорят, что зачастую соединение разрозненных систем может выявить проблемы качества данных, которые раньше оставались незамеченными. А четкое понимание того, какие записи являются основными, или «золотыми», данными, необходимо для того, чтобы бизнес мог доверять решениям, принимаемым с помощью инструментов расширенной аналитики или MО/ИИ.
Это тем более актуально для организаций, имеющих большое количество систем, включая старые архитектуры и системы, накопившие технический долг. Как рассказывает Уитфилд, одно из предприятий нефтегазовой отрасли провело более 1500 интеграций данных. Интеграция этих точек данных в озеро данных, например, подняла как практические вопросы, так и вопросы соответствия нормативным требованиям, а также вопросы стандартизации данных.
«Этот информационный спектр должен управляться в соответствии с типом информации, и, следовательно, необходимо управлять и базовыми наборами данных, — говорит Уитфилд. — На одном конце спектра находятся данные, которые должны быть строго контролируемыми, управляемыми, очень, очень последовательными и, в общем, не трогаемыми. С другой стороны, вы предоставляете специалистам в области науки о данных доступ к большим массивам данных и позволяете им исследовать все, что они захотят. Дело в том, что архитектура данных должна учитывать оба края этого спектра, что является непростой задачей».
Эксперты по данным рекомендуют использовать итерационный подход или рассматривать архитектуру данных применительно к проекту или бизнес-кейсу. В противном случае работа рискует стать неуправляемой и не принести пользы бизнесу. Но все это должно быть увязано с общей моделью данных, над которой работает компания. Это всегда будет непросто — слишком много небольших проектов создают свои собственные риски, связанные с различными стандартами данных и изолированными информационными блоками.
Архитектура данных и бизнес-цели
Тем не менее, инвестиции в архитектуру данных могут принести значительный, а иногда и быстрый возврат инвестиций. Фирмы смогут более эффективно использовать имеющиеся у них данные, а также получат больше возможностей для использования преимуществ новых и появляющихся платформ и приложений, включая ИИ и облако. И, как отмечает Боус, обновленная архитектура данных дает компаниям более полное представление о своих клиентах, не в последнюю очередь благодаря возможности подключения данных из облачных систем и систем «ПО как сервис» (SaaS) к существующим хранилищам данных.
Организации также могут использовать архитектуру данных для решения проблемы технического долга и обеспечения соответствия политики сбора и хранения данных нормативным требованиям. Но, в конечном счете, речь идет о раскрытии ценности данных, на сбор которых компания уже потратила деньги.
«По сути, данные нужны для того, чтобы моделировать мир, который мы видим, и каким-то образом представлять этот мир, — говорит Гарруд. — В основе своей это все еще моделирование сущностей и отношений между ними. Все сводится к тем же основам — четко понимать, чего вы пытаетесь достичь».
Но для этого также необходимо руководство со стороны бизнеса, постоянное управление или даже курирование, а также готовность использовать новые данные и инсайты.
«Нет смысла иметь красиво задокументированную архитектуру данных без правильного руководства данными, — говорит Уитфилд. — Очевидно, что более глубокие инсайты приносят пользу и открывают множество возможностей для бизнеса. Но то, как мы физически организуем наши данные, является относительно небольшой частью всего этого. Речь идет о руководстве бизнес-проектом, правильной операционной модели, правильной системе управления, правильном инструментарии, а также о правильной культуре».