Последние достижения в области ИИ открывают новую возможность использовать ИИ для улучшения администрирования данными (data governance, DG) и, в свою очередь, использовать DG для улучшения ИИ, пишет на портале InformationWeek Стив Ванвирен, старший директор по исследованию и администрированию данными компании Ceridian.
У меня уникальная должность — «Senior Director of Data Science and Governance». При беглом поиске можно найти не так уж много вакансий, объединяющих эти две специфические области знаний: наука о данных и администрирование данными.
Часто эти две роли занимают противоположные стороны в споре. Специалисты по исследованию данных хотят получить доступ ко всем данным, в то время как администраторам данных необходимо этот доступ ограничить. Исследователи хотят использовать данные для решения всех видов проблем, а администраторам нужно, чтобы данные использовались для решения определенных типов проблем. Исследователи хотят свободы, чтобы бегать. Администраторам нужно, чтобы все ходили.
В результате руководителям, ответственным за работу с данными, приходится решать непростую задачу — выбирать между желанием и необходимостью что-то сделать.
Многие руководители по работе с данными воодушевлены возможностями чатботов с ИИ, таких как ChatGPT, которые врываются в мейнстрим. Сегодня инструменты ИИ похожи на помощников исследователя. Они могут помочь людям писать и проверять код. Они могут писать песни, стихи и объявления о продаже недвижимости с одинаковым качеством. Они могут создавать логотипы и другие изображения. Они могут подсказать нам, как лучше представить идею или объяснить что-то.
Хотя эти инструменты удивительны, им еще нужно созреть, чтобы им можно было полностью доверять и они могли генерировать точные факты. Этических рамок пока немного, что дает возможность использовать ИИ для улучшения DG и, в свою очередь, использовать DG для улучшения ИИ.
ИИ может снизить риск путем создания DG-политик
Разработка политики администрирования данными — сложная работа. Составители должны глубоко понимать различные сценарии использования данных в своих организациях и соотносить эти сценарии с постоянно меняющимися законами и правилами, включая этические нормы своей компании.
Хотя поисковые системы могут привести администратора данных на определенный веб-сайт, где он может найти нужный ему материал, все равно требуется его прочитать и интерпретировать. Если предположить, что человек владеет 100% информации и хорошо интерпретирует материал, он может его обобщить и превратить и интегрировать эти знания в письменные DG-политики.
Вот только что описанные действия: найти, прочитать, интерпретировать, обобщить и написать. Все эти пять действий могут быть выполнены ИИ в масштабах, значительно превосходящих возможности человеческого интеллекта. То, на что у человека уходят сотни часов, ИИ может сделать практически мгновенно. Так пусть ИИ поможет нам создавать DG-политики.
Чем более грамотно составлены DG-политики, тем больше внимания руководителям служб администрирования данными смогут уделять их применению. Это ведет к снижению рисков для их организаций.
ИИ может сэкономить время и направить людей к надлежащим политикам
Около года назад меня спросили, что я считаю самой заметной тенденцией в стратегии DG, и я ответил: «Целенаправленное планирование для повышения грамотности в области данных». Повысить грамотность в области данных в организации сложно, и ее трудно измерить.
В своей компании я обычно измеряю ее на основе того, как часто на совещании, в презентации или документе приводятся данные, а не мнения. Научить этому навыку сложно. Предприниматель Джим Барксдейл однажды на уроке грамотности работы с данными сказал: «Если у нас есть данные, давайте посмотрим на них. Если у нас есть только мнения, то давайте остановимся на моем».
Интересно, что DG играет важную роль в обучении грамотности в области данных. Такие области DG, как метаданные, история данных и качество данных, помогают улучшить способы, с помощью которых люди соединяют свои мысли и гипотезы с фактами.
Как только люди получают доступ к нужным данным, руководителям служб DG приходится стараться уследить за различными вариантами их использования и людьми, которые их применяют. Они получат множество вопросов: «Могу ли я сделать X с помощью данных?», «Почему я не могу использовать данные для выполнения Y?», «Есть ли у нас данные, описывающие Z?».
ИИ может помочь ответить на эти вопросы. Он может связать эти вопросы с каждой DG-политикой, которая есть в компании. Это означает, что DG-командам придется отвечать на меньшее число вопросов. Это также повышает грамотность организации в области данных, что может оказать значительное финансовое влияние на бизнес.
ИИ может автоматизировать процессы администрирования данными
Качество данных — важный аспект роли администратора данных. «Мусор на входе, мусор на выходе» — это проблема, которую должен решать каждый из них. Качество данных — это гораздо больше, чем просто точность. Оно также должно распространяться на актуальность, охват, полноту и согласованность. Если что-то из этого не так, качество данных вызывает сомнения.
Поскольку чатботы с ИИ — это самообучающиеся инструменты, они становятся «умнее» по мере предоставления им нового контента. Если информация, обучающая модель, не проверяется на качество, то результат будет плохим. ИИ-чатботы являются интересным примером этого явления, поскольку многие факты, которые они генерируют, звучат правдиво, но являются неверными.
Это может показаться сложным, но ИИ может помочь решить эту проблему качества данных. Он может определить проблемы с качеством данных и даже предложить шаги по их устранению. Таким образом, только высококачественные данные будут попадать на этап обучения ИИ-чатботов. Это повысит точность их результатов.
Аналогичным образом, тот же подход может быть использован для автоматизации процессов обеспечения качества данных в DG-процессах. ИИ может сообщать, когда в какой-либо из областей качества данных происходит дрейф, а администраторы данных могут устранить его до того, как плохая информация выйдет наружу. Если у компании будут данные более высокого качества для аналитики или науки о данных, то и результаты будут более достоверными и эффективными.