Ограничения традиционных хранилищ данных (data warehouse) привели к появлению озер данных (data lake). Следующий шаг в организации хранения данных — озера-хранилища (lakehouse, комбинация традиционных хранилищ и озер данных) и дата-хабы, которые выводят хранение и анализ данных на новый уровень, сообщает портал ITPro Today.

Сегодня предприятия хотят делать с данными очень многое. Конечно, им необходимо хранить данные, чтобы они были доступны в случае необходимости, и они хотят быть уверенными в их безопасности и соответствии нормативным требованиям. В то же время компаниям все чаще нужно делиться данными и извлекать из них инсайты.

Традиционно организации полагались на хранилища данных как на центральный репозиторий и использовали их для всего, начиная от аналитики и отчетности и заканчивая бизнес-аналитикой. Хотя хранилища данных по-прежнему ценны, многие приходят к выводу, что их недостаточно. Они лучше всего сочетаются со структурированными данными, такими как операционные и транзакционные данные, в то время как большая часть данных, поступающих сегодня в компании, являются неструктурированными, — в виде э-почты, видео, сообщений в социальных сетях, аудио и сенсорных данных.

Неоднородность форматов привела к созданию озер данных, в которых могут храниться как структурированные, так и неструктурированные данные. В отличие от хранилищ, озера данных могут хранить данные в нативном формате, поэтому перед использованием данные нуждаются в очистке и подготовке. Это может усложнить их использование и привести к сбору беспорядочных данных. В то же время, озера данных оказались полезными для расширенной аналитики, часто включающей машинное обучение (МО). Кроме того, они, как правило, более масштабируемы и хорошо подходят для облачных вычислений. Многие компании предпочитают использовать в своих озерах данных нативно-облачные объектные хранилища, которые увеличивают скорость работы и хорошо справляются с большими объемами данных.

Учитывая очевидные преимущества каждого типа среды хранения данных, имеет ли смысл компаниям использовать и традиционные хранилища, и озера данных? Во многих случаях это так и происходит, и это может приводить к еще большим сложностям. Дело в том, что наличие нескольких сред не только увеличивает затраты, но и ведет к хранению одних и тех же данных в нескольких местах, что, в свою очередь, может стать причиной появления именно того, чего компании пытаются избежать — разрозненности данных. Чтобы уйти от ее негативного влияния, некоторые организации стали создавать конвейеры для перемещения данных.

Преимущества lakehouse

Data Lakehouse (сочетание data lake и data warehouse) — комбинация хранилища данных и озера данных. Цель их развертывания, по словам Кевина Петри, вице-президента по исследованиям Eckerson Group, исследовательской и консалтинговой компании в области данных и аналитики, состоит в том, чтобы обеспечить единый источник данных для всей среды. Новаторами в этой области являются такие поставщики, как Snowflake, Databricks и Vertica, хотя есть и другие. Одни подходят к работе с данными со стороны хранилища данных, другие — со стороны озера данных, но все они преследуют одну и ту же цель: создание нативно-облачного объектного хранилища на базе традиционного хранилища данных и озера данных.

Как правило, характеристики lakehouse включают прямой доступ к исходным данным, стандартизированный формат хранения, поддержку структурированных, полуструктурированных и неструктурированных данных, поддержку схем, одновременное чтение и запись данных.

«Озеро-хранилище выводит производительность, управление и масштаб вашего хранилища на уровень озера данных и, самое главное, позволяет иметь единый источник истины для всех ваших данных, — объяснил Джоэл Минник, вице-президент по маркетингу продуктов Databricks. — Его можно развернуть поверх уже имеющейся системы. Не требуется внедрять совершенно новую технологию, и это снижает сложность, поскольку вам не нужно перемещать данные в нисходящие системы».

Предприятия все больше убеждаются в преимуществах lakehouse. Например, по данным TDWI, 48% аналитиков и специалистов по обработке данных считают эту концепцию очень важной, а 89% рассматривают возможность для ее практической реализации. По их мнению, наибольшую ценность представляют консолидация изолированных систем, получение большей бизнес-ценности от данных, расширение аналитики до более прогрессивных форм, которые включают МО и ИИ, а также обеспечение лучшей основы для анализа новых и традиционных данных.

И еще есть дата-хаб...

Что еще можно пожелать от объединенной концепции хранилища данных и озера данных? Многие считают, что это дата-хаб (Data Hub). Одни говорят, что этот недостающий элемент централизует данные приложений и облегчает обмен ими и совместную работу. Другие рассматривают его как первичный источник важных элементов данных, таких как мастер-данные и стандартные справочные данные. Третьи говорят, что дата-хаб объединяет хранилища данных и озера данных.

«Дата-хабы позволяют открывать данные, которые хранятся в хранилище, и использовать их другим приложениям, — говорит Роберт Ли, технический директор Pure Storage. — Можно сказать, что хранилище данных идеально подходит для одного типа данных или для определенного использования, а озеро данных и какой-либо аналитический пакет поверх него могут идеально подойти для другого использования, но как сделать так, чтобы они не превратились в изолированные бункеры, и как избежать их разрастания?».

Некоторые аналитики считают, что с этими задачами должны справиться lakehouse. Среди них Gartner и Ventana Research. Минник согласен с этим: «Если смысл дата-хаба заключается в том, чтобы быть центром обмена данными, который обеспечивает доступ нужных людей к нужным данным для выполнения их работы, то именно для этого lakehouse и предназначено. Главный принцип его архитектуры заключается в том, что существует единый источник истины, данными из которого можно обмениваться как извне, так и внутри компании».

Не все эксперты не согласны с этой трактовкой. Поэтому стоит сосредоточиться на характеристиках и функциях, которые вам нужны, независимо от присвоенного технологии термина. «Сегодня не существует единого способа решения задач, связанных с корпоративными данными. Проблема не в том, чтобы выбрать один из них — проблема в том, как выбрать минимальное количество лучших в своем классе инструментов для каждой из ваших потребностей, — говорит Ли. — Это означает, что нужно быть гибким, потому что лучшим решением может быть сочетание технологий».

ИТ-руководители, управляющие платформами данных различных бизнес-подразделений, вместе с бизнес-менеджерами должны спросить бизнес-пользователей и специалистов по анализу данных об их требованиях, болевых точках и о том, что им помогало в прошлом. «Они наверняка скажут что-то вроде „мы не знаем, где правда“, „мы не получаем данные достаточно быстро“ или „мы не можем анализировать столько данных, сколько хотим, чтобы принимать бизнес-решения“, — говорит Петри. — Именно такая обратная связь необходима для принятия решения о том, как модернизировать архитектуру».