Никто и никогда не говорил, что управлять данными легко. К счастью, даже самые серьезные препятствия можно преодолеть, применяя правильные подходы, например, сформулированные опрошенными порталом InfromationWeek экспертами.
Управление данными включает в себя сбор, защиту, организацию и хранение данных организации, что позволяет анализировать их для принятия обоснованных бизнес-решений. К сожалению, по мере накопления данных управление ими становится все более сложной и трудоемкой задачей. Но не стоит терять надежду. Даже самые большие трудности в управлении можно преодолеть, если знать, что делать.
Следующие четыре идеи, озвученные экспертами, должны помочь разобраться и справиться актуальными задачами управления данными.
1. Разрозненность данных
Данные, как правило, поступают из различных источников, и кросс-функциональным командам бывает сложно получить к ним полный доступ. «Это означает, что члены команды часто имеют неполное представление об эффективности текущих процессов или стратегий, — говорит Дараг Махон, CIO логистической компании Werner Enterprises. — Поэтому важно выделить нужные данные и сделать их пригодными для использования, чтобы извлечь инсайты, принять решения и при необходимости изменить тактику».
По его словам, самым большим препятствием на пути к преодолению разрозненности данных является поиск правильного решения для хранения больших объемов данных, обеспечивающего легкий доступ и использование. Он отмечает, что для того, чтобы с данными могли легко работать именно те, кому они нужны, требуется достаточно ресурсов хранения, которые доступны для разных членов команды в форме, поддерживающей сотрудничество, визуализацию и обмен знаниями.
По словам Махона, лучший способ решить проблему разрозненности данных и улучшить их анализ — это принять стратегию «облако прежде всего, облако сейчас»: «Размещая все необходимые данные в облаке, компании могут собирать и хранить их, а также использовать технологии искусственного интеллекта и машинного обучения для быстрого анализа и принятия решений».
2. Сложность данных
Многие организации имеют громоздкие схемы данных, состоящие из тысяч таблиц, каждая из которых содержит сотни столбцов, которые могут иметь или не иметь понятные человеку названия. «Это создает проблемы: когда инженеры по данным хотят написать новые SQL-запросы для получения данных — они не знают, к каким таблицам обращаться и на какие столбцы ссылаться», — говорит Сьюзан Дэвидсон, профессор инженерной школы Пенсильванского университета.
Как оказалось, генеративный ИИ очень хорошо справляется с написанием SQL-запросов на основе описания задачи на естественном языке, отмечает она. С другой стороны, генеративный ИИ, как правило, терпит неудачу, когда схема очень велика. «Перспективным направлением является генерация с расширенным поиском (Retrieval augmented generation, RAG), и сейчас ведутся активные исследования того, как использовать ее для улучшения написания запросов к задачам с очень большими схемами данных», — говорит Дэвидсон.
3. Перегруженность данными
На протяжении многих лет организациям советовали собирать как можно больше данных, чтобы в случае чего они могли пригодиться. Однако это часто приводило к накоплению огромных объемов структурированных и неструктурированных данных без какой-либо основополагающей стратегии в отношении соглашений об именовании, расположения или администрирования данных. Теперь многие ИТ-руководители, глядя на растущие счета за хранение данных, не имеют ни малейшего представления о том, какие данные полезны и ценны, а какие — мусор, говорит Райан Рис, главный специалист по науке о данных облачного провайдера Mission Cloud. «Часто люди, которые создавали систему, уходят из компании, и становится непонятно, что делать дальше», — замечает он. ИТ-команде приходится перебирать терабайты данных, пытаясь понять, какие из них имеют ценность, а какие нет, и выстраивать стратегии управления.
По словам Риса, важно глубоко разобраться в своих данных и целях их использования. «Однако эта задача может оказаться очень сложной, если нужно просеять тонну данных», — отмечает он. У многих организаций просто нет ресурсов или времени, чтобы просеять кучу данных и понять их ценность. «Это все равно что навести порядок в гараже», — говорит он.
Лучший способ решить эту проблему — разработать формальную стратегию управления данными, в которой будет указано, какие типы данных следует сохранять, а от каких отказываться.
4. Некачественные данные
Низкое качество данных проявляется во многих формах, включая неточности, несоответствия, избыточность и пропуски. Любая из этих проблем может подорвать управление данными.
Проблемы с качеством данных могут быть как дорогостоящими, так и потенциально вредными. Они могут сделать усилия в других областях управления данными в значительной степени неэффективными. Основой успешного управления данными являются высококачественные, последовательные, точные и полные данные как на уровне содержания, так и на уровне метаданных. Только организации, в которых наведен порядок с качеством данных, могут рассчитывать на то, что другие подкатегории управления данными будут эффективно функционировать и приносить пользу.
Определение того, являются ли данные организации пригодными для использования и заслуживающими доверия, представляет собой серьезную проблему. Данные, с присущим им разнообразием форм, размеров и структуры, требуют комплексных усилий, говорит Боб Брауэр, основатель и генеральный директор консалтинговой компании Interzoid. Он отмечает, что сложность может усугубляться ограниченностью контроля над источниками, поскольку данные поступают от множества людей, организаций и процессов. «В сочетании с естественными вариациями языка, культурных особенностей и буквенно-цифровых данных „укрощение“ данных превращается в серьезную и, кажется, бесконечную проблему», — говорит он.
Приверженность обеспечению качества данных начинается с того, что качество становится ключевой стратегической целью. «Эффективный подход предполагает назначение руководителей, ответственных за качество данных, и выделение им необходимого бюджета и ресурсов для достижения успеха, — советует Брауэр. — Ключевые действия должны включать в себя проведение комплексной оценки данных, разработку стратегий и правил администрирования данных, сосредоточение внимания на наиболее важных областях данных для достижения первых побед, а также установление измеримых показателей и целей для отслеживания и управления прогрессом с течением времени».