Идея управления данными в огромных масштабах едва ли нова. Большинство компаний приняли концепцию «больших данных» и связанные с ней технологии (например, озера данных) как минимум десять лет назад. Однако внедрение современных технологий искусственного интеллекта поставило перед миром больших данных новые серьезные задачи — настолько серьезные, что мне кажется, что мы вступили во «вторую волну» масштабного управления данными и их модернизации. Технологии и практики, которые были достаточны для управления огромными объемами данных в течение последних десяти или пятнадцати лет, больше не могут соответствовать требованиям ИИ, пишет на портале BigDATAwire Имонн О’Нил, соучредитель и технический директор компании Lemongrass.

В результате компании, стремящиеся создать инфраструктуру и практику работы с данными, необходимые для использования всех преимуществ ИИ, должны кардинально пересмотреть свои стратегии управления данными. По сути, им необходимо заново модернизировать свой подход к данным.

Проблемы управления данными в масштабе

Благодаря первой волне модернизации данных и технологии больших данных типичный бизнес научился управлять огромными объемами данных. Например, многие организации строили озера данных в облаке, где благодаря сверхнизкой стоимости хранения они могли хранить все свои данные вечно.

Это ценная практика в эпоху, когда данные стали «новой нефтью», и чем больше данных у организаций, с которыми они могут работать, тем более глубокие инсайты и ценность они могут получить.

Проблема, однако, заключается в том, что простого создания масштабной инфраструктуры данных не всегда достаточно, чтобы извлечь из них полную пользу. Часто компании не всегда должным образом защищали, интегрировали и очищали все данные, которые сбрасывали в свои озера данных. В результате озера превращались, по крайней мере частично, в болота данных — то есть информация, которая в них хранилась, была плохо организована и плохо управлялась.

Как ИИ усугубляет проблемы управления данными

Во время первой волны больших данных — то есть в период между концом 2000-х и концом 2010-х — подобные проблемы были вполне решаемы. Конечно, не идеально иметь данные низкого качества или, например, без надлежащего контроля доступа, но это не было концом света. В целом это не мешало типичной компании извлекать пользу из данных, которыми она эффективно управляла с помощью традиционных аналитических процессов.

Однако современные технологии ИИ изменили ситуацию. Когда компании хотят использовать большие данные для работы с ИИ-решениями — в отличие от более традиционных типов аналитических рабочих нагрузок, которые преобладали во время первой волны модернизации больших данных, — проблемы, возникающие из-за неэффективного управления данными, нарастают. Из простого раздражителя или помехи они превращаются в препятствия на пути к успеху.

В качестве примера рассмотрим, что происходит, когда нетехнический сотрудник хочет задать вопрос и получить ответ на основе данных, которыми владеет организация. Десять лет назад этот процесс, скорее всего, предполагал написание и выполнение SQL-запроса для анализа информации и получения результата. Поскольку этот процесс был технически сложным, требовалась помощь технических специалистов, которые помогали решать любые проблемы, связанные с качеством данных или недостатками безопасности.

Но в век ИИ этот процесс, скорее всего, будет заключаться в предоставлении сотруднику доступа к инструменту генеративного ИИ, который может интерпретировать вопрос, сформулированный на естественном языке, и сгенерировать ответ на основе данных организации, на которых был обучен.

В этом случае качество данных или вопросы безопасности могут стать весьма проблематичными. Инструмент ИИ может выдать неточный ответ, например, потому что он обучался на неактуальных данных. Или же он может раскрыть информацию, которую сотрудник не должен был просматривать, поскольку в процессе обучения не были учтены ограничения доступа. А поскольку сотрудник получает доступ к данным непосредственно с помощью ИИ, к процессу не привлекаются инженеры, которые могли бы создать защитные ограждения или сгладить проблемы с данными.

Это лишь базовый пример использования ИИ, осложненный проблемами качества данных и безопасности. Но при управлении данными в эпоху ИИ могут возникнуть и другие проблемы — например, существование нескольких версий одного и того же документа без возможности для ИИ понять эти различия или узнать, какая версия является наиболее достоверной.

Эффективное управление данными в эпоху ИИ

Таковы проблемы управления данными, с которыми сталкиваются организации в эпоху современных технологий ИИ. Теперь давайте поговорим о решениях.

К сожалению, не существует чудодейственного средства, способного вылечить все болячки, которые я описал выше. Большая часть решения заключается в продолжении тяжелой работы по улучшению качества данных, созданию эффективных средств контроля доступа и повышению масштабируемости инфраструктуры данных.

Однако при этом предприятия должны уделять пристальное внимание уникальным требованиям, предъявляемым к сценариям использования ИИ. Например, при создании элементов управления безопасностью они должны делать это таким образом, чтобы они были понятны инструментам ИИ, чтобы те знали, какие типы данных должны быть доступны тем или иным пользователям.

При этом организации могут рассмотреть возможность внедрения определенных типов инструментов, которые не всегда учитываются при управлении данными, например:

  • Инструменты для отслеживания происхождения данных и их эволюции с течением времени.
  • Инструменты, которые предоставляют продукты данных в виде API, облегчая доступ к данным гибким и масштабируемым способом.
  • Инструменты обнаружения данных, которые помогают найти активы данных (особенно неструктурированные), о которых организация может не знать или которыми она не управляет должным образом.
  • ПО для контроля версий, например Git, которое позволяет отслеживать несколько версий одних и тех же данных. Хотя эти инструменты исторически использовались в основном для управления кодом, они также полезны для управления неструктурированными данными (например, документами), которые изменяются с течением времени.

В сочетании с более традиционными инструментами управления данными, такими как платформы озер данных, эти типы решений позволяют компаниям справиться с новой волны проблем управления данными.

Принятие второй волны модернизации данных

Изменения, происходящие в настоящее время в сфере модернизации данных, столь же значительны, как и те, что привели к преобразованию инфраструктуры данных и практики управления ими, когда концепция больших данных впервые появилась на сцене более пятнадцати лет назад.

Однако ставки сегодня, пожалуй, даже выше, чем тогда. Сегодня модернизация данных важна не только как способ обеспечения базовой аналитики или корреляции различных типов информации. Она имеет решающее значение для раскрытия всех новых мощных инноваций, обещанных ИИ, который в будущем обещает стать ключевым фактором, отделяющим «победителей» от «проигравших» в сфере бизнеса.