Озера данных оказались затронуты усилиями по трансформации бизнеса и происходящими в сфере данных драматическими изменениями, пишет Уильям Макнайт, президент McKnight Consulting Group, на портале InformationWeek.
Платформы озер данных загружают, хранят и анализируют большие объемы данных, своевременно обеспечивая бизнес знаниями. Управляемые данными организации используют эти данные различными способами: для сложной аналитики с целью продвижения новых продуктов, операционной аналитики с целью повышения эффективности, предсказательной аналитики с целью оценки кредитных рисков и обнаружения мошенничества, а также многими другими способами.
Хотя может показаться, что пока рано говорить о тенденциях развития озер данных, в действительности они находятся на переднем крае попыток трансформации бизнеса, и в настоящее время в этой области происходят драматические изменения. В некоторых организациях проекты озер данных потерпели провал. Но сейчас большинство таких организаций сократили расходы и восстанавливают такие проекты.
Вот тенденции, которые будут связаны не только с озерами данных, но также со зрелостью данных и компаний.
Возникновение озер-хранилищ
Наиболее яркой тенденцией является объединение озер данных с хранилищами данных. В таких озерах-хранилищах сочетаются аналитические базы данных хранилищ, которые отвечают требованиям к производительности в больших масштабах, предусмотренным корпоративными соглашениями об уровне обслуживания, с озерами данных на базе облачного хранения. Это позволяет хранилищам данных при необходимости обращаться к облачному хранению. Такие структуры также сочетаются с облачным хранением, которое служит промежуточным этапом для хранилищ данных, содержащих подмножество данных (которое необходимо для высокоточного анализа), и озер данных, которые используются главным образом специалистами по данным.
Взрывной рост временных рядов данных сенсоров и периферийного ИИ
Во многих организациях объем данных растет в связи с использованием 5G и Интернета вещей (IoT). Количество источников данных в виде датчиков демонстрирует гигантский рост. В основном они генерируют временные ряды: данные создаются в каждый момент времени и в совокупности показывают, как со временем меняется система/процесс/поведение.
Встроенные БД включаются в ПО, прозрачное для конечного пользователя приложения, они либо вообще не требуют или требуют незначительного текущего обслуживания. С распространением мобильных приложений и IoT встроенные БД становятся вездесущими, наделяя бесчисленные устройства расширенными возможностями. Разработчики могут создавать сложные приложения прямо на удаленных устройствах. Сегодня, чтобы полноценно использовать данные для получения конкурентного преимущества, необходима высокая производительность при работе с встроенными БД и соответствующими озерами данных, которая обеспечивает масштабную обработку в реальном времени.
Пользователи IoT могут применять встроенные БД на периферии для немедленной обработки данных в том числе с помощью искусственного интеллекта и копирования агрегированных данных датчиков IoT в озера. Данные, поступающие со всех устройств IoT, агрегируются в озере, чтобы можно было использовать аналитику.
Все эти веб-, мобильные и IoT-приложения породили новый набор технологических требований. Архитектура встроенных БД должна быть гораздо более гибкой, чем когда-либо прежде, и требует такого подхода к управлению данными в реальном времени, который соответствует беспрецедентным требованиям к гибкости данных, масштабу и скорости.
Использование облачного хранения для озер данных
На отраслевом жаргоне озера данных стали почти что синонимом облачного хранения. Первые озера данных использовали Hadoop (HDFS storage), но многие появились уже тогда, когда лучшим вариантом стало облачное хранение. Облачное хранение представляет собой более доступную раздельную архитектуру вычислений и хранения, в которой вычислительные ресурсы (Map/Reduce, Hive, Spark и т. д.) могут отключаться, масштабироваться горизонтально или вертикально, а также взаимозаменяться без перемещения данных. Хранение может быть централизовано, тогда как вычисления будут распределенными.
В некоторых случаях даже имеются механизмы обеспечения согласованности для достижения подобия ACID при удаленном изменении и удаленной репликации данных с целью обеспечения избыточности и восстановления.
Автоматизация интеграции данных
Это более общая тенденция, затрагивающая не только озера данных. Интеграция данных на предприятиях в основном не распространяется на озера. Но в будущем значительная ее часть коснется озер.
На интеграцию данных приходится более 75% работ при создании озер. Однако затраты времени будут сокращаться по мере того, как ИИ перестанет ограничиваться идентификацией источника и цели. Будут предлагаться или автоматически применяться «общие» правила интеграции данных. Когда предприятия освоят автоматизированный процесс, автоматизация интеграции данных станет применяться шире, и центр тяжести усилий по созданию озер данных переместится на организацию управления и доступа.
Сохранение структуры структурированных данных
Хотя можно загружать данные в озера, не имея схемы, важно знать, когда следует создавать схему данных, а когда можно обойтись без нее. Общее эмпирически выведенное правило гласит, что необходимо сохранять структуру уже структурированных данных и потратить время на создание схемы для данных, представляющих большую ценность для бизнеса или аналитики, а также для часто запрашиваемых пользователями. Для менее важных или менее популярных данных и в тех случаях, когда схема не имеет большого значения, она создается ad-hoc либо по мере необходимости. Можно также добавлять данные в озеро и создать схему, когда возникнет потребность в использовании данных.
Повышение качества данных
Еще одна тенденция в управлении озерами данных — создание их таким образом, чтобы можно было решать проблемы качества данных. Например, производить дедупликацию. Это требует дополнительного планирования, чтобы при повышении качества данных информация в озере продолжала отвечать стандартам организации, касающимся точности, согласованности и полноты. Озера данных будут включены в процесс управления точно так же, как любой информационный актив. Для этого требуется, чтобы управление было простым и гибким, а не жестким и диктаторским. Если потратить время на повышение качества данных во всем озере, это придаст ему постоянную повышенную ценность и сделает его надежным ресурсом для потребителей данных.
Создание озера данных — это, безусловно, способ смягчить проблему экспоненциального роста потребностей современного предприятия в данных. Однако для извлечения пользы из озера данных в долгосрочной перспективе требуются строгая дисциплина управления информацией и соответствующие инструменты. Кроме того, необходимо понимать тенденции развития, которые позволяют экономить время и деньги, а также повысить ценность озер данных.