Неточные, искаженные и устаревшие данные — это молчаливый враг каждой организации. О том, как можно вырвать их с корнем, рассказывают опрошенные порталом InformationWeek эксперты.
Данные подобны воде. «Без чистой воды вы будете иметь значительные негативные последствия для здоровья», — говорит Венкат Гупта, ассоциированный вице-президент компании Sogeti, подразделения Capgemini. Для многих организаций плохие данные означают потерю доверия всей экосистемы заинтересованных сторон — будь то клиенты, поставщики или даже сотрудники, предупреждает он.
По словам Гупты, если не уделять приоритетного внимания доверию к данным, это может привести к неэффективному принятию решений, плохому клиентскому опыту, штрафам со стороны регулирующих органов из-за несоответствия требованиям и т. д. «Отсев плохих данных не может быть второстепенной задачей, если организация надеется оставаться актуальной на современном конкурентном рынке», — считает он.
Плохие данные следует регулярно отфильтровывать из производственных баз данных, рекомендует Джереми Рамбарран, профессор Высшей школы технологий Университета Туро. «Для предприятий очень важно убедиться, что в их базах данных хранится точная информация, чтобы укрепить довериесвоих клиентов, — объясняет он. — Если плохие данные не будут регулярно удаляться из производственной среды, предприятия, особенно финансовые компании, будут полагаться на неточные данные и принимать решения на их основе. В глобальном масштабе плохие данные способны негативно повлиять на мировую экономику».
Устранение или хотя бы уменьшение количества некачественных данных также снижает риск ошибок и предвзятости при анализе данных. «Плохие данные могут исказить результаты и привести к неверным выводам, поэтому их устранение крайне важно для обеспечения точности и надежности, — говорит Кунал Шах, старший менеджер по анализу данных компании SAS. — Устранение плохих данных повышает общее качество данных, что приводит к более точным и надежным выводам и заключениям».
Знай своего врага
«Плохие данные» — это расплывчатый термин. «Стандарты качества данных различаются в зависимости от требований организации, — говорит Шах. — Однако полнота, актуальность, точность, согласованность и своевременность применимы к каждой организации в любой отрасли».
Плохие данные часто действительно означают низкое качество данных. В этом случае владелец данных должен сам определить приемлемый уровень качества с точки зрения актуальности, точности, возраста или других критериев. «Но плохие данные могут также означать неподходящие данные, и в этом случае необходимо определить понятие „подходящие“, — говорит Эрик Гфессер, директор и главный архитектор компании Deloitte. — Очень полезные для одного предприятия данные могут быть бессмысленными для другого». Поскольку многие сценарии использования не являются особенно требовательными, качество данных не всегда должно соответствовать единым стандартам. «Поэтому для определения того, что подходит, часто приходится прибегать к суждениям», — объясняет он.
Также важно проверять наличие дубликатов записей, которые могут быть вызваны ошибками при вводе данных или получением идентичных данных из нескольких источников. «Четко определенная программа администрирования данных и общая для всего предприятия схема конвейера данных — лучшие способы предотвращения дублирования записей», — рекомендует Шах.
По его словам, определить выбросы и выявить аномалии можно, сравнивая значения, которые значительно отличаются от остальных данных, или проводя статистические тесты, такие как регрессионный анализ, проверка гипотез или корреляционный анализ, для выявления закономерностей в данных.
Лучшие практики
Предприятиям следует внедрять активную практику управления и администрирования данными, используя структурированный и систематический подход. «Это предполагает применение политик, процедур, схем и технологий, которые регулируют сбор, хранение, использование и обмен данными внутри организации и с внешними партнерами, — говорит Гупта. — Цель состоит в том, чтобы обеспечить корректность, надежность и доступность данных для авторизованных пользователей».
Сильная и активная программа администрирования данных также обеспечит взаимодействие и согласованность между ИТ-, бизнес-подразделениями и командами управления данными. «Это непрерывный процесс, который необходимо измерять, отслеживать и корректировать в соответствии с меняющимися потребностями бизнеса», — говорит Гупта.
Лучший способ для организации обеспечить чистоту набора данных — использовать автоматизированные инструменты, которые могут просеивать наборы данных и выявлять нерегулярные данные, данные, которые могут не соответствовать формату, и другие нарушения, говорит Портия Кроу, главный стратег по данным Accenture Federal Services. «Установка правил проверки и наличие хорошей политики в отношении данных также может помочь в выявлении, смягчении и исправлении причин происхождения плохих данных», — добавляет она.
Обеспечение наблюдаемости
В современных организациях команды DevOps обеспечивают плавный и надежный выпуск ПО. К сожалению, многие предприятия продолжают заниматься вопросами качества и происхождения данных от случая к случаю. «Применение принципов наблюдаемости к конвейерам данных может стать поворотным моментом», — утверждает Шах.
Поскольку обеспечение качества данных — это непрерывный процесс, организациям следует соблюдать стандартные методы администрирования данных и брать на себя обязательства по совершенствованию и принятию обоснованных решений, говорит Гупта. «Регулярные оценки и обратная связь позволяют организациям решать возникающие проблемы, адаптироваться к меняющимся требованиям и совершенствовать свои процессы администрирования данных с течением времени», — добавляет он.