Неструктурированные данные, такие как видео и данные Интернета вещей (IoT), станут жизненно важными в 2002 г. Генеральный директор и соучредитель Komprise Кумар Госвами рассказывает на портале Information Age о тенденциях в области управления данными в следующем году.
На протяжении десятилетий управление данными означало, по сути, сбор, хранение и периодический доступ к ним. В последние годы все изменилось, поскольку компании ищут критически важную информацию, которую можно извлечь из огромных объемов данных, генерируемых, доступных и хранящихся в различных местах — от корпоративных дата-центров до облачных и периферийных сред. Именно поэтому аналитика данных с помощью таких современных технологий, как искусственный интеллект и машинное обучение стала обязательной функцией, и в 2022 г. ее значение еще более возрастет. Предприятиям необходимо быстро анализировать данные — в основном неструктурированные — для поиска информации, требующейся для принятия бизнес-решений. Чтобы добиться этого, им необходимо создать современную среду данных.
Ниже рассматривается несколько тенденций в области управления данными, которые выйдут на передний план в 2022 г.
Аналитика структурированных данных дополнится аналитикой неструктурированных данных
Большая часть науки о данных традиционно была сосредоточена на поступлении структурированных данных в хранилища данных. Но поскольку 90% мировых данных становятся неструктурированными, и МО опирается именно на них, специалисты по работе с данными должны расширить свои навыки и включить в них аналитику неструктурированных данных. Они должны научиться извлекать пользу из данных, которые не имеют определенной структуры или схемы и включают в себя видеофайлы, геномные файлы, сейсмические изображения, данные IoT, аудиозаписи и пользовательские данные, такие как э-почта. Развитие этих навыков, которое включает в себя постоянное обновление и экспериментирование с новыми возможностями анализа неструктурированных данных в озерах данных, а также изучение методов управления ими, будет иметь первостепенное значение в 2022 г.
Аналитика «правильных данных» превзойдет аналитику больших данных в качестве ключевого тренда
Большие данные слишком велики и создают болота данных, которые трудно использовать. Точный поиск нужных данных в локальной среде независимо от того, где они были созданы, и их анализ — это переломный момент, поскольку это позволит сэкономить много времени и ручного труда, обеспечивая при этом более релевантный анализ. Таким образом, вместо больших данных новой тенденцией станет развитие так называемой аналитики «правильных данных».
Важнейшим компонентом современной ткани данных станет управление данными, не зависящее от способа хранения
Ткань данных (Data Fabric) — это архитектура, обеспечивающая видимость данных и возможность их перемещения, репликации и доступа через гибридные хранилища и облачные ресурсы. Посредством аналитики в режиме, близком к реальному времени, она позволяет владельцам данных контролировать их местонахождение в облаках и хранилищах, чтобы они находились в нужном месте в нужное время. Менеджеры ИТ-систем и СХД будут использовать ткань данных, что бы отвязать данные от хранилища и реализовать управление, ориентированное на данные, а не на хранилище. Так, вместо того чтобы хранить все медицинские изображения на одном сетевом хранилище (NAS), специалисты могут использовать аналитику и отзывы пользователей для сегментации файлов, например, копируя медицинские изображения для доступа к ним моделей МО в клинических исследованиях или перемещая важную информацию в неизменяемое облачное хранилище для защиты от атак вымогательского ПО.
Data Fabric станет стратегическим трендом корпоративных ИТ
Data Fabric — это все еще концепция. Она предполагает, что данные находятся во многих местах, и «ткань» может соединить эти разрозненные структуры и обеспечить большую переносимость, наблюдаемость и управление. Исследования в области Data Fabric обычно сосредоточены на полуструктурированных и структурированных данных. Но 90% данных в мире сегодня являются неструктурированными, и эти данные не имеют определенной схемы. Озера данных и приложения для анализа данных сталкиваются со сложностями, чтобы получить доступ к этим «темным» данным, запертым в файлах.
Ткань данных должны соединить хранилища неструктурированных данных (файловые и объектные хранилища) и платформы для анализа данных (включая озера данных, МО, процессоры естественного языка и аналитику изображений). Анализ неструктурированных данных приобретает ключевое значение, поскольку МО опирается на неструктурированные данные. Технологии Data Fabric должны быть открытыми, основанными на стандартах и работать в разных средах. В 2022 г. ткань данных должна превратиться из концепции в набор архитектурных принципов управления данными. Учитывая растущую актуальность и огромные масштабы неструктурированных данных, поставщикам технологий необходимо включить их в свои архитектуры Data Fabric.
Мультиоблачные технологии будут развиваться вместе с различными стратегиями работы с данными
Сегодня многие организации используют гибридную облачную среду, в которой основная часть данных, используемых в системах различных вендоров, хранится и резервируется в частных дата-центрах. Поскольку объем неструктурированных (файловых) данных экспоненциально растет, облако используется в качестве вторичного или третичного уровня хранения. Управлять затратами, обеспечивать производительность и управлять рисками во всех этих разрозненных системах — сложная задача. Как следствие, ИТ-руководители осознают, что извлечение ценности из данных в облачных и локальных средах представляет собой сложную задачу.
Мультиоблачные стратегии работают лучше всего, если организации используют разные облака для различных сценариев применения и наборов данных. Однако при этом возникает еще одна проблема: если впоследствии потребуется переместить данные из одного облака в другое, это бужет стоить очень дорого. Новая концепция заключается в том, чтобы подтянуть вычисления к данным, которые находятся в одном месте. Таким местом может быть центр колокации с прямыми каналами связи с облачными провайдерами. Мультиоблако будет развиваться с помощью различных стратегий: иногда вычисления приходят к данным, а иногда данные раз в нескольких облаках.
Для управления ростом данных будут необходимы синтетические и неструктурированные данные
Безопасность и конфиденциальность данных становятся все более актуальными, и синтетические данные — отличное решение для предотвращения сбора пользовательских данных. Синтетические данные также более переносимы, поскольку вам не нужно учитывать множество законов о конфиденциальности. Однако, хотя они уменьшают объем сбора пользовательских данных, они все еще составляют небольшую часть от общего объема неструктурированных данных. Основная масса данных генерируется приложениями, а не пользователями, поэтому для управления ростом данных необходимы синтетические данные в сочетании с управлением неструктурированными данными.
Предприятия продолжают испытывать растущее давление, требующее принятия стратегий управления данными, которые позволят им извлекать полезную информацию из цунами данных для принятия важных бизнес-решений. Аналитика будет играть центральную роль в этих усилиях, равно как и создание открытой и основанной на стандартах ткани данных.