Новый опрос 500 профессионалов в области данных, проведенный с помощью Open Source-инструмента обеспечения качества данных Great Expectations, показал, что 77% имеют проблемы с качеством данных, у 91% оно влияет на производительность их компании и только 11% не видят проблем, связанных с качеством данных, сообщает портал Datanami.
«Низкое качество данных создает организационные трения между заинтересованными сторонами, что приводит к таким последствиям, как снижение доверия, — сказал Эйб Гонг, генеральный директор и соучредитель компании Superconductive, разработчика Great Expectations. — Этот опрос ясно показал, что проблемы с качеством данных широко распространены и наносят ущерб показателям бизнеса».
Качество данных, являясь компонентом управления данными, представляет собой меру общей целостности набора данных с целью обеспечения согласованности. Superconductive перечисляет шесть аспектов качества данных:
- Точность. Точно ли данные отражают реальность?
- Полнота. Все ли данные, необходимые для использования в конкретном сценарии, доступны?
- Уникальность. Нет ли в данных нежелательных дубликатов?
- Согласованность. Нет ли в данных противоречивой информации?
- Своевременность. Достаточно ли свежи данные для требуемого сценария использования?
- Валидность. Соблюдается ли для данных ожидаемый формат?
Данные, не соответствующие этим характеристикам, могут вызвать проблемы у организаций, в том числе «затруднить или сделать невозможным „единый взгляд“ на конечного пользователя или услугу, снизить производительность, скрыть надежные показатели эффективности, а также перегрузить команды разработчиков и бюджеты задачами по миграции данных», — утверждают в Superconductive.
Согласно опросу, специалисты по работе с данными заявили, что низкое качество данных вызвано отсутствием документации (31%), инструментария (27%) и взаимопонимания между командами (22%). Слишком много времени тратится на подготовку данных, что приводит к серьезным задержкам в работе производственных и аналитических команд.
Кроме того, менее половины респондентов сообщили о высоком уровне доверия к данным своей компании, а 13% заявили о низком уровне. Эти недоверчивые профессионалы сталкиваются с неработающими приложениями или приборными панелями, плохими результатами из-за принятия решений на основе ненадежных данных, отсутствием общего понимания метрик, а также с данными, изолированно хранящимися в разных местах, что может вызывать конфликты и разногласия между различными командами.
Помочь могут инициативы по обеспечению качества данных, и обычно они начинаются со всесторонней оценки текущего состояния данных. На основе этой информации компании могут определить и применить определенные правила или ожидания, которые устраняют несоответствия с качеством данных, а затем продолжить мониторинг систем и конвейеров по всей организации. 89% опрошенных заявили, что руководство компании поддерживает их начинания в области качества данных, а 52% считают, что у их руководителей высокий уровень понимания важности качества данных.
В исследовании упоминается, что усилия по обеспечению качества данных включают в себя разработку плана и составление бюджета (22%), использование специализированного инструмента (19%), проверку данных вручную (14%) и создание собственных систем (15%).
«Качество данных имеет решающее значение для уверенного принятия решений в рамках всей организации, обеспечивая единое понимание того, что означают эти данные и для чего они используются. Именно поэтому поддержка усилий по обеспечению качества данных должна осуществляться на всех уровнях организации, от специалистов по анализу данными и инженеров до высшего руководства, которое должно быть уверено в результатах принятия решений на основе данных», — сказал Гонг.