Подходы к обеспечению качества данных в разных компаниях различны. Одни организации прилагают много усилий для подготовки своих наборов данных, обеспечивая наличие правил проверки и надлежащего описания каждого атрибута. Другие концентрируются на быстром развитии слоя данных, уделяя очень мало внимания качеству, происхождению и управлению данными, пишет на портале BigDATAwire Томаш Ендроска, руководитель отдела инженерии данных STX Next, европейского поставщика консалтинговых услуг в области Python и ИИ/MО.

Неоспоримым фактом является то, что компании, отказывающиеся уделять необходимое время и ресурсы управлению данными, столкнутся с финансовыми издержками. Это подтверждается результатами недавнего исследования Fivetran и Vanson Bourne «AI in 2024», согласно которому компании с годовым доходом более 5,6 млрд. долл. теряют в среднем 406 млн. долл. в год в результате использования некачественных данных.

Плохие данные в первую очередь влияют на финансовые показатели компаний, поскольку служат основой для неэффективных отчетов бизнес-аналитики и моделей ИИ — созданных или обученных на неточных и неполных данных — которые дают ненадежные ответы, используемые компаниями для принятия важных решений.

В результате для того, чтобы организации были по-настоящему уверены в имеющихся в их распоряжении данных, необходимо проделать значительную работу за кулисами.

Технологии развиваются, но данные продолжают жить

Стоит помнить, что данные, как правило, живут дольше всех остальных уровней прикладного стека. Поэтому, если архитектура данных спроектирована неправильно, могут возникнуть проблемы в дальнейшем. Часто это происходит из-за агрессивных сроков, установленных руководством, когда проекты торопят, чтобы достичь нереалистичных целей, что приводит к не самым желательным результатам.

Во многих компаниях добавление новых наборов данных все еще остается весьма несистематической задачей. Даже в крупных проектах, включающих в себя сбор и анализ терабайтов данных, недостаточное качество данных часто сказывается на последующих уровнях обработки. Например, удивительно часто наборы данных проходят через дорогостоящие процессы преобразования без даже кратких проверок на соответствие столбцов и форматирования.

В конечном итоге понимание ценности терпеливого и тщательного подхода к проверке данных принесет гораздо больше пользы, чем приоритет скорости при выполнении проектов по работе с данными. При наличии в организации важнейших базовых элементов данных, что не достигается в одночасье, любая работа, основанная на этой информации, с большей вероятностью приведет к значительным результатам, улучшающим финансовые показатели.

Выбор правильных решений

Мир данных уже не похож на тот, в котором мы находились 20 лет назад. Если раньше у нас была горстка поставщиков баз данных, то теперь команды разработчиков могут выбирать из целого ряда доступных решений для работы с данными (согласно исследованию Stack Overflow, существует около 360 таких инструментов).

При обилии предлагаемых интуитивных и инновационных решений специалисты по работе с данными должны избегать естественного стремления придерживаться знакомых им инструментов, которые хорошо помогали им в прошлом. Готовность экспериментировать с новыми технологиями и создавать более универсальный технологический стек может повысить эффективность в долгосрочной перспективе.

Предприятиям следует тщательно изучить требования проекта и потенциальные будущие области, которые он может охватить, и использовать эту информацию для выбора продукта базы данных, подходящего для данной работы. Специалисты по работе с данными также могут быть очень ценными, и организации, которые вкладывают значительные средства в высококвалифицированный и знающий персонал, с большей вероятностью добьются успеха.

Качество данных — основа эффективной ИИ-стратегии

Неотъемлемым фактором того, почему высококачественные данные важны в современном бизнес-ландшафте, является то, что компании всех отраслей спешат обучить и внедрить классические модели машинного обучения, а также модели генеративного ИИ (GenAI).

Эти модели склонны умножать все проблемы, с которыми они сталкиваются, а некоторые чат-боты с ИИ даже галлюцинируют, если они обучены на идеализированном наборе исходной информации. Если данные неполные, несовпадающие или даже противоречивые, модель GenAI не сможет сделать из них удовлетворительные выводы.

Чтобы этого не произошло, команды по работе с данными должны проанализировать бизнес-причину и корни текущих проблем с данными. Слишком часто организации стремятся тактически устранить проблемы, а затем позволяют первоначальной проблеме становиться все больше и больше.

В определенный момент необходимо провести целостный анализ архитектурного ландшафта, с учетом масштаба организации и ее влияния. Он должен представлять собой легкий обзор или более формализованный аудит с последующим выполнением рекомендаций. К счастью, современные решения в области управления данными могут в значительной степени смягчить боль, связанную с таким процессом, и во многих случаях сделать его более гладким, в зависимости от размера технического долга.

Расширенные возможности сотрудников, ориентированных на данные

Сотрудники, которые доверяют данным и полагаются на них, работают гораздо эффективнее, чувствуют себя более защищенными и способствуют повышению эффективности. Ускорение бизнеса за счет принятия решений на основе данных — это верный признак организации, достигшей зрелости в области данных. Принятие такого подхода гарантирует, что данные станут активом, а не уязвимым местом, которое стоит бизнесу денег.