Управляющий директор компании Dynistics Роберт Даг объяснил на портале Information Age, как предприятия накапливают неструктурированные данные и каким образом они могут приносить пользу, если их обрабатывать при помощи инструментов визуализации.
Практически у каждой компании независимо от рода деятельности накапливаются неструктурированные данные, но лишь небольшая часть организаций понимает, что это и как из них извлечь выгоду. Примечательно, что на протяжении многих лет значение неупорядоченных данных в сравнении со структурированными занижалось — оно рассматривалось едва ли не на уровне статистической погрешности, но в последнее время эксперты пересмотрели свою точку зрения. Причина этого заключается в том, что количество неоднородных данных стремительно растет (Gartner прогнозирует, что в течении следующих пяти лет они покажут рост на уровне 800%), а это значит, что вместе с ними теоретически растет и количество жизненно важной информации.
Важно понять, почему организации обратились к неструктурированным данным только сейчас и что же это за критически важная информация, которая в них хранится, но сначала нужно провести параллели со структурированными данными. Как следует из их названия, структурированными данными обозначается совокупность упорядоченных, предсказуемых и повторяющихся единиц информации. Обычно она передается в виде чисел, имеющих четкий порядок, ее можно легко разложить в строки и столбцы. Структурированные данные можно вводить, хранить, менять местами блоки, размечать и анализировать — все это очевидные операции, которые дают не менее очевидный результат. Около 20% всех данных, применяющихся в бизнес-решениях, являются структурированными.
В свою очередь неструктурированные данные, как правило, являются зеркальным отражением человеческой деятельности — они хранятся в виде электронных писем, отчетов, электронных таблиц, медицинских записей, к ним также относятся данные, которые генерируют IoT-устройства, социальные сети и мобильные приложения, которые никак нельзя разложить в виде структурированной БД. На первый взгляд они выглядят накоплением хаотичной, бессвязной информации, которая быстро накапливается, которую к тому же трудно хранить и тем более анализировать.
Преимущества неструктурированных данных
Если анализ структурированной информации дает ответ на вопрос, что происходит, то анализ неструктурированных поясняет, почему это происходит. Однако раскрыть их потенциал не так-то просто. Недавнее исследование 451 Research, проведенное по заказу специализирующейся в области «подвижной» аналитики компании Logtrust, показало, что предприятия в основном делают упор на инициативы со структурированными данными (89%). Проекты с неструктурированными данными вызывают куда меньший интерес — ими занимается 43% опрошенных.
Однако игнорирование неструктурированной информации оставляет существенное количество данных вне поля зрения аналитических бизнес-инструментов, которое потенциально могло бы подтолкнуть организации к росту. К примеру, если структурированные данные содержат информацию об операционной деятельности либо показатели доходности, то неструктурированные могут нести более глубокую смысловую нагрузку — они позволяют понять, что о компании думают клиенты, проанализировать их отзывы, учесть желания и, таким образом, повысить их лояльность.
IDG Research прогнозирует, что к 2022 г. 93% всех цифровых данных будут неоднородными, что окажет серьезное воздействие как на текущие, так и будущие процессы управления данными, а также потребует нового подхода к их защите. 78% организаций мало или совсем не представляют, что происходит с их неструктурированными данными (кто, зачем и с какой целью с ними соприкасается), что в итоге выливается в проблемы с обеспечением их конфиденциальности. Эта проблема приобрела особенное значение в свете ввода в действие нового регламента GDPR Евросоюза в области обработки и защиты персональных данных и других законодательных актов.
Сложности с обеспечением конфиденциальности — не единственная проблема неструктурированных данных. Учитывая их относительную открытость и распространенность по всей инфраструктуре организации и различным устройствам, они более уязвимы к кибератакам, чем структурированные сородичи, что делает их привлекательной добычей для хакеров. Избежать многих проблем, а также получить более ясное представление о структуре и потоках неструктурированных данных помогут инструменты визуализации данных.
Панели мониторинга
Самыми известными и наиболее часто применяемыми инструментами визуализации данных являются BI-платформы, предлагающие консолидированный вывод всех данных компании на единую панель мониторинга (dashboard). Панель аккумулирует данные — как структурированные, так и неструктурированные — из множества источников, сопоставляет их с собственными БД и позволяет вывести из имеющегося богатства информации содержательные бизнес-источники.
Для усвоения структурированных и неструктурированных данных они сортируются BI-платформой, которая затем анализирует их и выводит итоги в виде отчетов. Панели мониторинга позволяют в удобном виде отслеживать положение дел в бизнесе, находить ответы на вопросы и быстро просматривать наиболее важные метрики. Визуализация на панели мониторинга может охватывать один или несколько базовых наборов данных и один или несколько базовых отчетов. Панель объединяет локальные и облачные данные независимо от того, где они расположены.
Помимо этого она позволяет накладывать данные обоих типов, сопоставлять отдельные блоки информации. Некоторые виды панелей помимо визуализации содержат и механизмы детализации, которые позволяют руководителям компаний взаимодействовать с данными. Этот тип взаимодействия позволяет глубже изучить неструктурированные данные, чем при генерации статических отчетов.
Благодаря выявлению взаимосвязей структурированных и неструктурированных данных CEO может в режиме реального времени и в иллюстрированном виде видеть, как организация работает, какие процессы в ней протекают, а главное — найти ответ на вопрос, почему они так протекают, и, соответственно, предпринять необходимые корректирующие действия. Эти ответы особенно актуальны на фоне популярности удаленных схем работы, когда сотрудники получают доступ к информации при помощи настольного компьютера, ноутбука, смартфона или планшета.