Сегодня проблема управления данными № 1 — это работа с 80% данных, которые являются неструктурированными. Пришло время ИТ-службам определить для себя методологию, пишет на портале InformationWeek Мэри Шеклет, президент консалтинговой компании Transworld Data.
Ежедневно в мире генерируется 402,7 миллиона терабайт данных, и примерно 80% поступающих на предприятия данных являются неструктурированными. Под «неструктурированными» подразумеваются данные, которые не организованы в узнаваемые и поддающиеся разбору записи с установленными ключами к ним.
Вместо этого неструктурированные данные могут быть представлены в виде монолитных видео- или аудиозаписей, фотографий, чертежей CAD, электронных писем, документов на бумажных носителях, рентгеновских и магнитно-резонансных снимков, сообщений в социальных сетях или даже тарабарщины из рукопожатий и обменов между телекоммуникационными и сетевыми устройствами.
Предприятиям трудно справиться с этими данными или вообще использовать их. «Более 1300 бизнес- и ИТ-руководителей из семи ведущих стран мира высказали свое мнение: они пытаются найти все свои данные и сообщают, что более половины из них являются „темными“ — неиспользуемыми и зачастую совершенно неизвестными. И хотя они знают, что искусственный интеллект станет преобразующим фактором, они не уверены, когда и как это произойдет», — говорится в отчете Splunk «The State of Dark Data».
Эти соображения хорошо понятны, потому что если вы хотите преуспеть в области ИИ, вам нужна способность ИИ анализировать все имеющиеся данные, а не только 20% из них. Для этого предприятиям необходимо разобраться со своими неструктурированными данными.
Как это можно сделать? Отсортировав данные, решив, какие из них хороши, а затем организовав хорошие данные так, чтобы их можно было использовать в системных процессах, таких как ИИ.
Задача ИТ-службы — определить подход, позволяющий выполнить эти шаги. Как отсортировать, классифицировать и организовать данные, которые поступают в компанию с такой огромной скоростью?
Шаг 1. Проанализируйте неструктурированные данные. Откуда и в каком виде поступают ваши неструктурированные данные? Какой объем памяти занимают эти данные и сколько это стоит? Где хранятся данные и кто их использует? Кому принадлежат данные? Какой возраст этих данных?
Все это — вопросы высшего уровня, на которые необходимо ответить для каждого типа неструктурированных данных, имеющихся в вашей компании.
Шаг 2. Выявите «силосы» данных. Некоторые неструктурированные данные, скорее всего, принадлежат определенным пользовательским отделам и могут находиться в отдельных системах. Если данные хранятся исключительно в определенном отделе, они считаются «силосом» (изолированным хранилищем) данных, который не может быть использован другими отделами компании, поскольку у них нет доступа к этим данным. Данные в таких «силосах» могут не использоваться, поскольку они предназначены для различных неиспользуемых бизнес-процессов. Изолированность данных также создает риск того, что различные отделы используют несопоставимые данные и приходят к противоречивым бизнес-решениям.
Основная цель шага 2 — выявить «силосы» данных, а также определить типы неструктурированных данных, которые в них находятся.
Шаг 3. Пересмотрите хранение данных. Огромное количество неструктурированных данных не приносит пользы, включая «шум» сетевых рукопожатий или данные, которые настолько устарели, что никто не использует их уже много лет.
Чтобы определить, какие данные можно выбросить, поскольку они бесполезны, следует под контролем ИТ-службы проанализировать центральное хранилище данных и системы в дата-центре, а также в пользовательских отделах и облаке. Внутренние и облачные политики хранения данных должны быть пересмотрены ИТ-отделом и конечными пользователями, чтобы было согласованное понимание того, какие типы неструктурированных данных должны храниться и как долго.
Некоторые из этих данных могут быть неэлектронными, например бумажный каталог продукции компании, который хранится в подсобном помещении с
И наконец, в процессе реорганизации данных необходимо учитывать финансовые аспекты. Сколько места на складе и на диске вы освобождаете, избавляясь от бесполезных данных, и какова годовая экономия?
Шаг 4. Классификация и организация данных. После того как вы избавились от ненужных неструктурированных данных, пришло время классифицировать и организовать оставшиеся данные. Эта задача может быть трудоемкой, поскольку классификация данных в значительной степени должна выполняться «вручную», с помощью опытных пользователей, применяющих метки к объектам данных. Например, для этого может потребоваться пометить все артефакты неструктурированных данных ярлыком «продукт», поскольку они состоят из CAD-, CAM-, фото- и видеодокументов о продукции компании.
Теги данных — это единственный способ определения и навигации по объектам неструктурированных данных, чтобы люди могли найти то, что они ищут. К сожалению, при огромном количестве объектов неструктурированных данных создание тегов занимает много времени и вызывает раздражение. Эти метки также должны быть стандартизированы и согласованы на уровне организации, чтобы упростить поиск данных.
Хотя большинство организаций не могут обойтись без «ручной маркировки» данных, мы начинаем наблюдать появление на рынке ПО, которое может делать это автоматически, если ему задан набор бизнес-правил. Кроме того, в будущем появится поддержка со стороны инструментов на базе ИИ, которые смогут «научиться» оценивать и классифицировать объекты неструктурированных данных.
Шаг 5. Обогащение данных. Допустим, некая компания хочет выиграть тендер на строительство электростанции. Большая часть данных для подготовки предложения поступает в виде схем, PDF-файлов, бумажных документов и электронной переписки. Эти неструктурированные данные, наряду с традиционными структурированными данными, необходимо очистить, отформатировать и нормализовать, чтобы они могли взаимодействовать с другими типами данных в едином хранилище данных, поддерживающем принятие решений в процессе проведения тендера.
Также необходимо импортировать внешние данные из облака и от третьих лиц о таких элементах, как логистика и погодные условия в месте реализации проекта, а также местные нормативные требования и зонирование.
Такие инструменты, как ETL (извлечение, преобразование, загрузка), могут автоматизировать большую часть процессов очистки и форматирования данных, но они все равно требуют от ИТ-специалистов написания бизнес-правил для преобразования данных. Кроме того, неструктурированные данные, поступающие в хранилище, должны быть предварительно классифицированы и помечены конечными пользователями.
Цель пятого шага — обогатить данные, чтобы они могли взаимодействовать со всеми другими типами данных для создания полной картины о клиенте, продукте, ситуации и т. д. Это поможет лицам, принимающим решения в бизнесе, поскольку они оперируют стратегиями, тактиками, расписаниями, ценообразованием и т. д.
Заключительные замечания
В реальности лишь немногие компании смогут успешно использовать 100% неструктурированных данных, которые ежедневно поступают к ним, но они могут начать работу с неструктурированными данными, определив, откуда они поступают, где в конечном итоге будут размещены, что они собой представляют и когда их можно отбросить.
Последующим и вполне выполнимым шагом является устранение изолированности и создание общекорпоративного хранилища данных, содержащего как структурированные, так и неструктурированные данные.
Конечная цель — получение высокообогащенных данных, обеспечивающих оптимальную ценность для бизнеса, — возможно, подождет до тех пор, пока не созреют технологии автоматической классификации данных и ИИ, но ИТ-службы могут многое сделать уже сейчас, чтобы быть готовыми к этому времени.