Организации пытаются улучшить качество данных уже более 30 лет, но эта проблема все еще актуальна. Более того, она важна как никогда. Опрошенные порталом InformationWeek эксперты рассказывают о распространенных проблемах качества данных, которые могут вывести вас из себя.

Качество данных — не новая концепция, но ее важность продолжает расти с расширением применения больших данных, аналитики и искусственного интеллекта. Без хорошего качества данных аналитика и ИИ не будут надежными.

«Традиционные проблемы, связанные с качеством данных, мы наблюдаем и сегодня, — говорит Феликс Ван де Маеле, генеральный директор компании Collibra, специализирующейся на анализе данных. — Полнота, точность, согласованность, достоверность, уникальность и целостность — это те же самые параметры качества данных, с обеспечением которых компании борются и по сей день».

Так почему же компании все еще сталкиваются с проблемами качества данных? Потому что ему до сих пор не уделяется должного внимания. С одной стороны, это не так модно, как аналитика или ИИ.

«Качество данных важно как никогда, особенно в сфере ИИ и аналитики, — говорит Лора Макэлхинни, директор по данным консалтинговой компании MadTech. — Оно напрямую влияет на точность и эффективность результатов ИИ, независимо от того, обсуждаем ли мы генеративные модели или традиционные системы машинного обучения. Качество данных также является основой для эффективной аналитики, отчетности и принятия бизнес-решений. Без него аналитические выводы будут скомпрометированы, что может привести к ошибочным стратегиям и решениям, основанным на неверной информации. Поэтому обеспечение высокого качества данных — это не просто техническое требование, а стратегический императив».

Ниже перечислены некоторые из наиболее распространенных проблем качества данных, с которыми сталкиваются предприятия.

1. Неструктурированные данные

О качестве данных, относящихся к категории неструктурированных, говорят много, потому что их огромное количество и организации хотят использовать их для ИИ. Есть опасения по поводу качества этих данных, их актуальности, избыточности, а также того, что люди вырезают и вставляют их из одной системы в другую. При этом персональная информация и конфиденциальные данные компании могут находиться там, где их быть не должно, отмечает Джек Берковиц, директор по данным компании Securiti AI, предоставляющей платформу для анализа данных. «Озера данных — это не что иное, как „ну, мы пока просто сбросим их туда, а разберемся потом“, — говорит он. — Вам нужно, чтобы у вас были четко определены те бизнес-кейсы или те сценарии использования, которые вы собираетесь попытаться выполнить. Особенно важно найти и начать постепенно упорядочивать неструктурированные данные. Их слишком много, чтобы просто сказать: „Ну, мы их все освоим“. Поэтому определите приоритетность некоторых из этих сценариев использования и действуйте соответственно».

2. Ввод данных

Люди являются основной причиной проблем с качеством данных, и мало найдется примеров лучше, чем в сфере здравоохранения, где информация, записанная на бумаге, вводится в системы вручную.

«Врачи, медсестры, административные сотрудники берут ваши страховые данные и вписывают их в формы для выставления счетов, — говорит Райан Лерк, соучредитель и главный аналитик компании Kythera Labs, занимающейся технологиями и аналитикой данных в сфере здравоохранения. — Обеспечение качества данных в этих электронных системах сосредоточено на аспектах, которые наиболее важны, например, для оплаты. Да, у них не будет путаницы с деньгами, но есть еще 80 других областей. Вы можете считать само собой разумеющимся, что многие данные в заявлении точны, а на самом деле может оказаться, что их никто никогда не просматривал».

3. Легкодоступные данные

Сегодня в организациях, в Интернете и других местах имеется больше данных, чем когда-либо. Собирать эти данные без надлежащей маркировки, очистки или добавления контекста также проще, чем когда-либо. Обучение моделей ИИ на таких данных может приводить к ошибочным результатам.

«Данные без знаний — это как ингредиенты без кухонных инструментов или приборов. Конечно, вы можете смешать все ингредиенты вместе, но, скорее всего, у вас получится очень невкусное блюдо, — говорит Худа Нассар, старший специалист по информатике компании RelationalAI, предоставляющей ИИ-сопроцессоры для облачных платформ и языковых моделей. — Я считаю, что лучший способ для организаций получить качественные результаты — это внедрить слой знаний, который поможет установить связи между данными. Кроме того, знания, включающие ограничения на данные, могут быть очень полезны в рамках процесса их очистки».

4. Неспособность определить приоритеты качества данных

Организациям необходимо ставить качество данных на первое место, а ИИ — на второе. По словам Рикардо Мадана, старшего вице-президента компании TEKsystems, предоставляющей решения в области технологий, бизнеса и кадров, Не уделяя должного внимания этой последовательности, руководители начинают бояться упустить что-то из виду (FOMO) в попытках понять, как ИИ может помочь противостоять конкурентному или бюджетному давлению, и сразу переходят к внедрению ИИ, прежде чем провести какую-либо честную самооценку состояния и готовности своих информационных ресурсов

«Это явление не отличается от увлечения облачной миграцией около семи лет назад, когда мы видели, как многие организации сразу переходили на нативные облачные сервисы после поспешных переносов рабочих нагрузок без модификации, и все это до оценки или рефакторинга целевых рабочих нагрузок. Такая последовательная дисфункция приводит к низкой производительности последующих приложений, поскольку архитектурные недостатки унаследованного онпремисного состояния повторяются в облаке, — говорит Мадан. — ИИ — это отличная „сыворотка правды“, позволяющая оценить качество, зрелость и стабильность существующих активов данных организации. Вместо того, чтобы столкнуться с нелестной правдой, инвестируйте сначала в целостную подготовку данных к ИИ, а затем в инструменты ИИ».

5. Неспособность маркировать данные

Многие проблемы предприятий с ИИ связаны с отсутствием организации, сортировки и объяснимости исходных данных, позволяющих эффективно обучать модели ИИ. Это также известно как маркировка данных.

«Чаще всего самой большой проблемой является отсутствие эффективно маркированных данных. Часто команды не знают, чего они не знают, что заставляет некоторых известных персон делать тревожные заявления вроде того, что ИИ „скорее всего, приведет к концу света“. Если вы не знаете, что у вас на входе, вы не можете быть уверены в том, что получится на выходе», — говорит Макс Ли, генеральный директор стартапа Oort, занимающегося сетями децентрализованной физической инфраструктуры, и адъюнкт-доцент кафедры электротехники Колумбийского университета. — Организации, пытающиеся решить эту проблему своими силами, часто не до конца понимают масштаб работы, которую они пытаются выполнить, и не осознают, насколько дорогостоящим и трудоемким является этот процесс. Это приводит к тому, что им не хватает прозрачности, а результаты вызывают недоумение«.

6. Плохо налаженные процессы

Согласно недавнему исследованию HFS и Syniti, 85% респондентов осознают, что данные являются краеугольным камнем успеха бизнеса, но только треть из них довольна качеством корпоративных данных. Более того, по их словам, 40% данных в их организациях непригодны для использования.

«Все участники процесса должны понимать, что все проблемы с данными возникают из-за проблем с процессами, и они в свою очередь создают дополнительные проблемы с процессами, — говорит Кевин Кэмпбелл, генеральный директор компании Syniti, занимающейся управлением корпоративными данными. — Это „Уловка-22“: если у вас плохой процесс, значит, у вас плохие данные; если у вас плохие данные, это способствует плохому процессу. Вам нужно найти и устранить проблему с процессом. Важно четко определить, кому принадлежат те или иные данные, и возложить на людей ответственность за эти данные».

Данные часто рассматриваются как ИТ-проблема, но на самом деле это проблема бизнеса. Это означает, что руководители должны уделять больше внимания этому вопросу и понимать, что данные напрямую влияют на результаты бизнеса.

7. Плохие метаданные

Метаданные — это информация, описывающая данные, начиная от типа данных и заканчивая тем, где и как они были получены. Они крайне важны с точки зрения управления и использования. Кроме того, некачественные метаданные часто могут быть виновниками последующих проблем.

«Организациям следует принять комплексную политику управления данными, инвестировать в автоматизированные решения по обеспечению качества данных и развивать культуру управления данными. Более того, они должны сосредоточиться на постоянном мониторинге и улучшении качества данных, чтобы поддерживать точную и надежную ИИ-аналитику», — говорит Гуру Сетупати, соучредитель и генеральный директор компании FairNow, занимающейся разработкой ПО для управления ИИ.

Он также предупреждает о несоответствиях при обработке данных: «На этапе расчетов проблемы с качеством данных часто возникают из-за плохо определенных или непоследовательно применяемых метрик. Такие несоответствия могут исказить результаты аналитики и подорвать доверие к выводам, сделанным на основе ИИ».

8. Разрозненность данных

Да. Изолированность данных по-прежнему является проблемой. Несмотря на то что все уже устали о ней слышать, данные о клиентах, например, обычно фрагментированы в CRM, биллинге, службе поддержки, управлении взаимодействием, записях звонков и т. д.

«Такая фрагментация делает невероятно сложным предоставление достоверного представления о клиенте в режиме реального времени базовым большим языковым моделям (LLM), на которых работают клиентские приложения генеративного ИИ (GenAI), — говорит Юваль Перлов, технический директор компании K2view, предоставляющей ПО для операционного управления данными. — Чтобы преодолеть эту проблему, вам потребуется надежная инфраструктура данных, способная в режиме реального времени интегрировать и объединять данные, управлять мастер-данными, преобразовывать данные, анонимизировать и проверять их. Чем более фрагментированы данные, тем труднее получить высококачественные данные для GenAI-приложений ».

9. Неточная информация о происхождении данных

Неточная информация о происхождении данных возникает из-за ИТ-проблем, отсутствия обработки исключений и перемещения данных между различными исходными файлами и форматами.

«Чем больше данных обрабатывается в различных средах, приложениях, разными людьми, тем выше вероятность того, что что-то пойдет не так, — говорит Брайан Экл, директор по технологиям компании cBEYONData, предоставляющей решения для анализа данных и управления финансами. — Неаккуратная обработка данных может произойти, если кодер не справится со специальным символом, произойдет сбой системы, файлы будут повреждены или в данных со временем появится новая аномалия».

10. Программное обеспечение

ПО собирает данные, и сбор этих данных будет отражать ошибки, недочеты или рассогласования при его написании, в зависимости от того, как происходит сбор данных. По словам Ави Переса, соучредителя и технического директора платформы бизнес-аналитики и интеллектуального принятия решений Pyramid Analytics, пока это имеет место, данные, поступающие из программного процесса, всегда будут содержать какие-то проблемы. Например, если определенное ПО не фиксирует номер телефона клиента, то невозможно провести какой-либо анализ продаж по номеру телефона.

«Вторая проблема, которая часто возникает, особенно на крупных предприятиях, — это когда есть пять различных программных продуктов, которые собирают один кусочек пазла компании. И в какой-то момент вы сталкиваетесь с вопросами, для ответа на которые вам нужно будет склеить все пять из них вместе. И тогда у вас возникает головная боль, потому что данные собираются во всех пяти системах, и в то же время некоторые фрагменты данных отличаются друг от друга, — говорит Перес. — В какой-то момент появляется нечто аналогичное и общее для всех них, поэтому их нужно склеить. И если это не будет сделано должным образом, то клей не сработает. Наши данные должны быть почти идеальными, чтобы их можно было совместить. В противном случае мы получаем так называемое „нечеткое соответствие“. Оно редко работает безупречно».

И с «клеем» могут возникнуть проблемы: бывает трудно склеить системы, собирающие схожие данные, и в результате получается много дыр из-за противоречивости данных.

11. Беспорядочные данные

Большинство организаций уже имеют корпоративную платформу данных, которая собирает и интегрирует данные из исходных систем, однако данные, хранящиеся в этих платформах, зачастую неорганизованны и беспорядочны. В результате потребители данных не знают о полном объеме доступных активов данных, и даже если им удается найти актив, они могут потратить много времени на его очистку, прежде чем его можно будет использовать.

«Инвестиции в программы управления данными помогут решить общие проблемы качества данных. В большинстве организаций из-за огромного объема и масштабов собираемых данных невозможно устранить все общие проблемы с качеством данных. Поэтому они должны стараться сосредоточить эти программы на тех активах данных, которые наиболее часто используются потребителями данных», — говорит Тайлер Мангер, вице-президент по аналитике и глобальным операциям компании Rimini Street, поставщика корпоративного ПО, продуктов и услуг.

По его словам, если организации хотят иметь данные лучшего качества, то им необходимо стимулировать или вознаграждать людей, которые занимаются сбором данных. Ключевой частью этого процесса является регулярные измерение качества данных и постановка целей или задач. Это можно сделать с помощью регулярного аудита данных или прямого измерения улучшения работы ИИ-системы.