Организациям следует не ограничиваться использованием проверенных методов применения искусственного интеллекта для оптимизации управления данными, а использовать преимущества новых технологий, которые только появляются, пишет на портале ITPro Today Даниэль Загалес, вице-президент по инженерии данных компании 66degrees.com.

Сказать, что ИИ является главной темой-2023, значит преуменьшить. В наши дни все говорят об ИИ и делают всевозможные прогнозы относительно того, как инструменты ИИ изменят задачи всех типов — от приготовления пищи до управления рисками кибербезопасности. Однако в мире инженерии и управления данными об ИИ говорят гораздо меньше, чем в других областях технологической индустрии. Причина в том, что грамотные команды инженеров по данным уже давно его используют.

Существует множество веских причин использовать ИИ для ускорения рабочих процессов с данными, в то же время многие методы управления данными на основе ИИ на самом деле не так уж новы. Тем не менее, существует несколько новых способов использования ИИ в области инженерии и управления данными. Поэтому, хотя было бы гиперболой утверждать, что ИИ изменит нашу работу с данными, также было бы ошибкой игнорировать инновации, которые предлагает ИИ в этой области.

Позвольте мне объяснить это, обсудив состояние ИИ для инженерии и управления данными и отличив то, что действительно является новинкой, от проверенных временем методов ИИ.

Зачем использовать ИИ для управления и инженерии данных

Независимо от того, каким образом вы решили использовать ИИ в области управления данными — применяете ли вы его для более простых нужд или используете технологии ИИ нового поколения, — вашей целью должно быть определение способов, с помощью которых ИИ может ускорить рабочие процессы и сократить трудозатраты инженеров по данным.

Большая часть работы, которую ежедневно выполняют инженеры по данным, может быть утомительной и отнимать много времени. Преобразование данных из одного формата в другой вручную может отнимать огромное количество времени и является, мягко говоря, скучным занятием. Также как и просеивание огромных объемов информации для поиска проблем с качеством данных, таких как избыточные или пустые ячейки. Даже если вы используете инструменты для автоматического поиска и сортировки данных, вы все равно будете тратить огромное количество времени на качество данных, если вам придется вручную писать сложные запросы для выявления проблем с качеством.

Но если вы сможете заменить эти задачи рабочими процессами на основе ИИ, вы сэкономите массу времени и трудозатрат. В результате у вас появится больше времени и пространства для мыслей, которые можно посвятить задачам, создающим ценность, — например, генерированию инсайтов на основе данных, а не подготовке и управлению данными.

Традиционные сценарии

В течение многих лет ИИ можно было использовать для сокращения трудозатрат в нескольких основных областях управления данными.

Профилирование данных. Во-первых, это профилирование данных, которое обычно происходит при подготовке организаций к получению данных. Оно помогает устранить проблемы с качеством данных, такие как пробелы в начале или конце записи или дублирующиеся записи.

В распространенных продуктах для работы с данными ИИ уже используется для решения этих задач. Например, если импортировать электронную таблицу в Google Sheets, она может автоматически предложить изменения для улучшения качества данных.

Таким образом, для ускорения профилирования данных не нужен продвинутый ИИ. Достаточно знать, какими продуктами для работы с данными можно воспользоваться.

Безопасность данных. ИИ также может помочь оптимизировать операции по обеспечению безопасности данных, особенно те, которые связаны с выявлением конфиденциальной информации, такой как персональная информация, персональная медицинская информация и информация о платежных картах, которая содержится в данных, с которыми вы работаете. Поскольку нормативные требования накладывают ограничения на использование и защиту этих данных, возможность их обнаружения является критически важной с точки зрения безопасности данных и соответствия нормативным требованиям.

Однако возможность выявления конфиденциальной информации с помощью ИИ также уже давно присутствует во многих продуктах для работы с данными. В базовых программах управления данными, таких как Google Sheets, ее, как правило, не найти, но ее можно получить с помощью средств предотвращения утечек данных (DLP), которые могут автоматически искать в массивах данных информацию, связанную с рисками, связанными с соблюдением нормативных требований и безопасностью.

Наблюдение за данными. Это процесс мониторинга использования данных с целью обнаружения аномалий или закономерностей, которые могут быть признаками проблемы. Например, если вы заметили внезапное снижение объема обрабатываемых данных или скорости их преобразования, необходимо провести дополнительное расследование, чтобы определить, нет ли проблем в конвейере данных.

ИИ может помочь в этом процессе, выполняя функцию обнаружения аномалий, которую можно найти во многих инструментах наблюдения за данными. ИИ обычно не может сказать, почему возникла проблема, но он, по крайней мере, ускорит процесс ее обнаружения, чтобы вы могли быстрее на нее отреагировать.

Сценарии нового поколения

Любая организация, стремящаяся к эффективному управлению данными, уже использует преимущества тех методов управления данными на основе ИИ, которые я описал выше. Однако если вы хотите быть по-настоящему дальновидными, то должны заниматься изучением новых подходов к использованию ИИ для оптимизации рабочих процессов с данными.

Наибольшие возможности в этом направлении я вижу в использовании генеративного ИИ для помощи в гомогенизации данных. Гомогенизация данных подразумевает получение данных из различных источников и их нормализацию в соответствии с заданной моделью данных. Это обычная задача, которую необходимо решить, когда у компании есть данные из нескольких систем; например, розничная компания работающая как в Интернете, так и в офлайновых магазинах, может использовать различные платежные решения для каждого контекста, а затем объединять данные о платежах, чтобы анализировать их централизованно.

Гомогенизация данных сложна, поскольку обычно требует учета большого количества нюансов преобразования. Необходимо определить, как должно измениться каждое поле в каждом наборе данных, чтобы они соответствовали вашей модели данных. Сложность и необходимость настройки здесь выше, чем при использовании стандартных алгоритмов сопоставления с шаблоном.

Однако с помощью генеративного ИИ процесс гомогенизации данных можно в значительной степени автоматизировать. Инструменты генеративного ИИ могут оценить существующую модель данных, а затем определить, как изменить данные, чтобы они соответствовали ей. Конечно, они не смогут самостоятельно полностью гомогенизировать данные, но значительно сократят время, затрачиваемое на ручную настройку необходимых преобразований.

Заключение

ИИ уже много лет находится в авангарде инноваций в области управления и инженерии данных. Но по мере развития технологий ИИ стратегии управления данными должны развиваться вместе с ними. Использование проверенных методов применения ИИ для оптимизации управления данными — это базовый шаг, который должна сделать каждая организация, чтобы сократить трудозатраты инженеров по данным, но не останавливайтесь на достигнутом. Ищите способы использования более сложных ИИ-решений для дальнейшей оптимизации управления данными, применяя новые методы, которые только появляются.