Эффективная маркировка (тегирование) данных позволяет организациям использовать небольшое количество дескрипторов или тегов для организации и оптимизации огромных объемов информации, пишет на портале eWeek Стив Пручневски, директор по маркетингу продуктов компании Komprise.
ИТ-команды предприятий повсеместно сталкиваются с проблемой управления огромными объемами неструктурированных данных, хранящихся на различных платформах. Это ставит перед ними задачу управления данными — чтобы раскрыть ценность неструктурированных данных.
Исторически основное внимание уделялось поиску наиболее дешевого решения для хранения данных, а не раскрытию их ценности. Чтобы перейти от управления объемами к получению выгоды, важно идентифицировать, проверять, очищать и сортировать файловые объекты перед отправкой их в целевую аналитическую среду.
В общем, компаниям нужен способ упорядочить данные, чтобы они могли управлять ими надлежащим образом. Именно здесь на помощь приходит маркировка данных.
Что такое маркировка при управлении неструктурированными данными
Маркировка — это процесс добавления меток для категоризации неструктурированных данных, чтобы пользователи могли легко искать и находить нужные им данные, когда они им нужны. Проще говоря, это добавление и обогащение метаданных о ваших данным.
Биологические науки были одной из первых отраслей, которые начали использовать маркировку данных. Например, лабораторное оборудование, такое как микроскопы, наносит на изображения метки, которые идентифицируют микроскоп, сделавший снимок, ID проекта и информацию об объекте. Это позволяет обнаруживать изображения и связывать их с клиническими исследованиями.
Нанесение метки аналогично добавлению хэштега к сообщению в социальных сетях. Например, пользователь, пишущий в LinkedIn об управлении данными, может добавить хэштег #DataManagement, чтобы помочь другим людям, ищущим информацию по этой теме.
Когда речь идет об управлении неструктурированными данными, использование меток дает ряд преимуществ, в том числе:
- позволяет пользователям быстро и легко находить данные с точными характеристиками, которые им нужны;
- улучшает качество неструктурированных данных, делая их более пригодными для использования;
- помогает отмечать и отфильтровывать сомнительные данные до того, как руководители предприятий используют эту информацию при принятии решений;
- помогает идентифицировать персональную информацию (PII), чтобы предприятия могли правильно управлять, защищать и регулировать эти данные.
Автоматизация маркировки
Маркировка может осуществляться вручную сотрудниками в рамках рабочего процесса при создании или получении контента или с помощью инструментов машинного обучения, которые анализируют данные на основе определенных параметров. Для того чтобы маркировка была эффективной, она должна применяться последовательно и точно, а это трудоемкий процесс, если он выполняется вручную.
К счастью, этот процесс можно автоматизировать с помощью МО. Одним из преимуществ использования МО для автоматической маркировки данных является то, что это можно делать круглосуточно, а не только тогда, когда сотрудники работают. Кроме того, автоматическая маркировка сокращает количество ошибок, присущих ручной маркировке.
Современные платформы управления неструктурированными данными обеспечивают основу, которая позволяет пользователям идентифицировать наборы данных на основе атрибутов файлов и метаданных, а затем применять теги.
Примеры тегов: проект, владелец, тип данных, центр затрат, бизнес-подразделение, классификация безопасности, а также пользовательские теги, которые соответствуют более специфическим отраслевым или клиентским сценариям использования. Это работает как индексация или каталогизация всех ваших разрозненных хранилищ, придавая структуру вашим неструктурированным данным.
Такие приложения, как искусственный интеллект, МО и аналитические инструменты, могут обрабатывать данные и применять метки на основе полученных результатов. Например, приложение MО может проверять изображения, а затем автоматически применять метку, которая классифицирует данные. С помощью тегов пользователи и приложения могут легко идентифицировать точные наборы данных.
Придание структуры неструктурированным данным
Хотя сегодня на предприятиях нет недостатка в данных, ИТ-организации часто не знают, какие данные у них есть и как их можно использовать в своих интересах. Именно поэтому в условиях массового роста объемов неструктурированных данных очень важно точно маркировать и организовывать эти данные.
Метки позволяют предприятиям работать более эффективно, минимизировать ошибки, поддерживать проекты по анализу неструктурированных данных, а также улучшать управление данными, соответствие нормативным требованиям и безопасность.