Габриэль Клок, координатор управления проектами компании Indicium, рассказывает на портале ITPro Today о том. как избежать основных проблем — от некачественных данных до неясных целей и плохого взаимодействия, — которые могут сорвать ваши проекты в области науки о данных.

Запустить проект в области науки о данных — это одно. А вот довести его до успешного завершения — совсем другое. Почему? Потому что целый ряд проблем — некоторые из них носят технический характер, а другие связаны с аспектами взаимодействия — может привести к тому, что даже самые хорошо спланированные инициативы пойдут наперекосяк.

Успех отчасти зависит от предвидения этих проблем и их планирования. С этой целью мы рассмотрим семь распространенных причин неудач проектов в области науки о данных, а также дадим советы, как не допустить, чтобы эти проблемы помешали вашему следующему проекту.

1. Данные низкого качества

Проблемы с качеством данных — такие как неполнота, противоречивость или избыточность — являются одними из самых известных проблем, мешающих успешным проектам в области науки о данных. Но я все же затрону эту тему, потому что невозможно переоценить, насколько важно обеспечить качество данных в качестве первого шага при реализации проекта, который зависит от способности обрабатывать, анализировать и преобразовывать данные.

Стоит также отметить, что если в начале проекта у вас данные низкого качества, это не означает, что проект обязательно провалится. Существует множество эффективных методов повышения качества данных, таких как очистка и стандартизация данных. Когда проекты терпят неудачу, это, как правило, связано с тем, что не удалось оценить качество данных и улучшить его, а не с тем, что качество данных было настолько низким, что спасти проект было невозможно.

2. Незнание того, где хранятся данные

Еще одна распространенная проблема, связанная с наукой о данных, — это незнание того, где именно хранятся ваши данные. Крупные организации могут владеть сотнями информационных активов, распределенных по разветвленной, многогранной ИТ-инфраструктуре. Если у них нет подробного, постоянно обновляемого каталога данных, в котором отслеживаются все эти активы, а многие этого не делают, то простой поиск данных, необходимых команде для выполнения проекта, может стать серьезной проблемой.

Однако и здесь есть инструменты и методы, которые могут помочь. Основным решением является ПО для обнаружения данных, которое может автоматически идентифицировать ресурсы данных, включая те, которые не документированы.

3. Труднодоступные данные

Иногда вы знаете, где находятся ваши данные, но не можете получить к ним доступ. Это может быть связано с тем, что данные хранятся в унаследованной системе, которая плохо документирована или больше не поддерживается. Или данные могут быть отформатированы таким образом, что их трудно читать или обрабатывать.

С этими проблемами можно справиться, но только если вы предвидите их с самого начала проекта в области науки о данных и выделите необходимые ресурсы для их решения. Например, вам может понадобиться найти экспертов, которые разбираются в унаследованных системах и могут раскрыть хранящиеся в них данные.

4. Отсутствие четких целей проекта

До сих пор я описывал технические проблемы, препятствующие успеху проектов в области науки о данных. Теперь давайте перейдем к тому, что можно назвать организационными или поведенческими проблемами. Начнем с распространенного подводного камня — отсутствия четких целей проекта.

Слишком часто компании решают, что они хотят что-то сделать со своими данными, но не знают, что именно. Например, они могут поставить перед собой высокоуровневую цель, такую как использование полученных данных для роста доходов, не определив при этом, какие именно проблемы, связанные с доходами, они хотят решить с помощью данных.

Избежать этого подводного камня очень просто: в самом начале проекта необходимо четко сформулировать конечные результаты. Всегда есть возможность немного подкорректировать детали после начала проекта, но вы должны с самого начала знать, какими должны быть общие результаты проекта.

5. Отсутствие сотрудничества между ИТ-департаментом и бизнесом

В любом проекте в области науки о данных есть две ключевые вовлеченные стороны — ИТ-департамент, который отвечает за управление активами данных, и бизнес-пользователи, которые определяют, чего должен достичь проект.

К сожалению, плохое взаимодействие между этими группами может привести к провалу проекта. Например, ИТ-отдел может принять решение о введении ограничений доступа к данным, не посоветовавшись с бизнес-пользователями, что приведет к ситуации, когда бизнес не сможет использовать данные так, как он задумал. Или отсутствие информации от заинтересованных сторон бизнеса о том, что они хотят сделать, может привести к тому, что ИТ-команде будет сложно определить, как предоставить ресурсы данных, необходимые для поддержки проекта.

6. Негибкие дорожные карты проекта

В проекте в области науки о данных любого масштаба и сложности обязательно возникнут проблемы, независимо от того, насколько тщательно вы все спланируете. Например, ваша команда может столкнуться с непредвиденными проблемами качества данных или обнаружить, что ей не хватает важных типов данных. Решение этих проблем потребует отступления от первоначальных планов.

Аналогичным образом, необходимо учитывать изменения, требуемые клиентом, в ходе проекта, особенно в проектах с открытыми масштабами. Гибкость в изменении приоритетов и удовлетворении новых потребностей бизнеса очень важна, но клиенты должны быть проинформированы о том, что приоритетность этих изменений неизбежно приведет к задержке других аспектов проекта.

Это не значит, что команда должна постоянно пересматривать свои цели и методы, но она должна быть достаточно гибкой, чтобы приспосабливаться к изменениям. В противном случае тщательно продуманные планы станут злейшим врагом успешного проекта в области науки о данных.

7. Непонимание целей науки о данных

Последняя ключевая проблема, которая может помешать успеху проекта в области науки о данных, — это непонимание того, каковы цели науки о данных и какие методологии и ресурсы для нее необходимы.

Например, компания может решить, что она хочет внедрить технологию искусственного интеллекта. Наука о данных может стать способом достижения этой цели, если организация решит, например, обучить или настроить собственную модель — и если она вложит средства в инфраструктуру управления данными и инструменты, необходимые для поддержки этого процесса.

Но если цель состоит в том, чтобы внедрить стороннее ИИ-приложение или сервис, наука о данных не нужна. Неправильное использование термина «наука о данных» заключается в том, что все, что так или иначе связано с данными, является наукой о данных.

Можно сказать и по-другому: ваш проект в области науки о данных будет успешным только в том случае, если это действительно проект в области науки о данных. Если это не так — когда вы преследуете цели, которые на самом деле не требуют науки о данных, — вы можете в итоге инвестировать в инструменты, ресурсы и процессы науки о данных, которые никогда не принесут плодов, просто потому, что они не являются способом достижения вашей цели.

Заключение: гарантии успеха проекта в области науки о данных

Безусловно, не существует «одного простого средства», гарантирующего успех вашего проекта в области науки о данных. Но такие шаги, как тщательное управление качеством данных и доступом к ним, постановка четких целей и принятие гибкой структуры проекта, значительно повысят ваши шансы на успех.