Озеро-хранилище (lakehouse) данных робко появилось около восьми лет назад, когда организации искали золотую середину между беспорядочностью озер данных (data lakes) и замкнутой суетливостью хранилищ данных (warehouses). Новый архитектурный паттерн привлек несколько последователей, но рост не был впечатляющим. Однако в 2025 г., согласно новому исследованию Dremio, благодаря стечению обстоятельств озера-хранилища данных будут развиваться весьма активно, сообщает портал BigDATAwire.
В 2010 г., когда наступила эра больших данных, Hadoop стала самой популярной технологией, поскольку она позволяла создавать большие кластеры из недорогих стандартных серверов X86 для хранения и обработки петабайтов данных гораздо дешевле, чем существовавшие дорогие хранилища данных и устройства, построенные на специализированном оборудовании.
Позволяя клиентам сбрасывать большие объемы полуструктурированных и неструктурированных данных в распределенную файловую систему, кластеры Hadoop получили прозвище «озера данных». Клиенты могли обрабатывать и преобразовывать данные для своих конкретных аналитических нужд по требованию, реализуя так называемый подход «structure on read» (стратегия сбора и анализа данных, при которой их структура определяется во время чтения).
Это существенно отличалось от подхода «structure on write» (структура определяется при записи), который использовался в типичных хранилищах данных того времени. До появления Hadoop предприятиям приходилось тратить время на преобразование и очистку транзакционных данных перед их загрузкой в хранилище данных. Это увеличивало затраты времени и денег, но было необходимо для максимального использования дорогостоящих ресурсов хранения и вычислений.
По мере продвижения эксперимента с Hadoop многие предприятия обнаружили, что их озера данных превратились в «болота данных». Хотя сброс необработанных данных в HDFS или S3 радикально увеличивал объем данных, которые они могли хранить, это происходило за счет более низкого качества данных. В частности, в Hadoop отсутствовали средства контроля, позволяющие предприятиям эффективно управлять своими данными, что привело к снижению доверия к аналитике Hadoop.
К середине
Год спустя еще две команды представили аналогичные решения для озер данных HDFS и S3. Инженер Netflix Райан Блю и инженер Apple Дэниел Викс совместно создали формат таблиц под названием Iceberg, который должен был привнести в таблицы Apache Hive возможности ACID-подобных транзакций и откатов. В том же году компания Databricks выпустила Delta Lake, объединив возможности хранилищ данных по работе со структурированными данными с облачным озером данных, чтобы привнести «хорошее, лучшее, оптимальное» в управление данными и обеспечение их качества.
Эти три формата таблиц в значительной степени стимулировали рост озер-хранилищ данных, поскольку они позволяли применять традиционные методы управления данными в базах данных в качестве слоя поверх озер данных в стиле Hadoop и S3. Таким образом, клиенты получали лучшее из двух миров: масштабируемость и доступность озер данных и качество и надежность данных в хранилищах данных.
Другие платформы данных, включая AWS, Google Cloud и Snowflake, начали принимать один из форматов таблиц. Iceberg, который в 2020 г. стал проектом Apache высшего уровня, получил значительную поддержку от открытой экосистемы Hadoop. Databricks, которая сначала придерживалась Delta Lake и лежащего в ее основе формата таблиц, а затем постепенно открылась, также становилась все более популярной. Третьим по популярности стал формат Hudi, который в 2019 г. получил статус проекта Apache верхнего уровня.
Битва между Apache Iceberg и Delta Lake за доминирование в области форматов таблиц казалось бы зашла в тупик. Однако в июне 2024 г. Snowflake усилила поддержку Iceberg, запустив каталог метаданных для Iceberg под названием Polaris (теперь Apache Polaris). Практически одновременно Databricks объявила о приобретении основанной Райаном Блу, Дэниелом Уиксом и бывшим инженером Netflix Джейсоном Ридом компании Tabular, платформа которой основана на Iceberg, за сумму от 1 до 2 млрд. долл.
Руководители Databricks во главе с генеральным директором Али Годси объявили, что форматы Iceberg и Delta Lake со временем будут объединены: «Мы собираемся стать лидерами в области совместимости данных, чтобы вы больше не были ограничены тем, в каком формате озер-хранилищ хранятся ваши данные».
Запуск Polaris и приобретение Tabular оказали огромное влияние, особенно на сообщество поставщиков, разрабатывающих независимые движки запросов, и сразу же вызвали рост популярности Apache Iceberg. «Если вы принадлежите к сообществу Iceberg, то для вас наступает время вступить в новую эру», — сказал в июне 2024 г. Рид Мэлони, директор по маркетингу компании Dremio.
Семь месяцев спустя этот импульс не иссяк. В январе 2025 г. Dremio опубликовала новый отчет под названием «State of the Data Lakehouse in the AI Era», который составлен на основе опроса 563 лиц, принимающих решения в области данных, проведенного McKnight Consulting Group в IV квартале 2024 г.
Отчет засвидетельствовал растущую поддержку озер-хранилищ данных (которые теперь по умолчанию считаются основанными на Iceberg). «Наш анализ показывает, что озера-хранилища данных достигли критического порога принятия: 55% организаций проводят большинство аналитических операций на этих платформах, — говорится в отчете. — По прогнозам респондентов, в ближайшие три года эта цифра достигнет 67%, что свидетельствует о явном изменении стратегии работы с данными на предприятиях».
Dremio утверждает, что основным фактором роста озер-хранилищ данных остается экономическая эффективность, на которую указали 19% респондентов, за которой следуют унифицированный доступ к данным и повышенная простота использования (по 17%) и аналитика самообслуживания (13%). По данным опроса, 41% пользователей озер-хранилищ данных перешли из облачных хранилищ данных, а 23% — из стандартных озер данных.
Более качественная и открытая аналитика данных занимает первое место в списке причин перехода на озеро-хранилище данных, однако Dremio обнаружила удивительное большое количество организаций, использующих свое озеро-хранилище данных для поддержки другого сценария использования — разработки ИИ. Так, 85% пользователей озер-хранилищ данных в настоящее время используют их для разработки моделей ИИ, а еще 11% планируют это делать. Ошеломляюще мало (4%) пользователей lakehouse заявили, что не планируют поддерживать разработку ИИ.
Несмотря на то, что стремление к ИИ является всеобщим, организациям еще предстоит преодолеть серьезные препятствия, прежде чем они смогут реализовать свою мечту об ИИ. В ходе своего исследования Dremio выяснила, что организации сталкиваются с серьезными проблемами на пути к достижению успеха в подготовке данных для ИИ. В частности, 36% респондентов заявили, что главной проблемой являются регулирование и безопасность при использовании ИИ, затем следуют высокие стоимость и сложность (33%) и отсутствие единой инфраструктуры, готовой к ИИ (20%).
По словам Джеймса Роуленд-Джонса, вице-президента Dremio по управлению продуктами, архитектура lakehouse является ключевым компонентом для создания продуктов данных, которые хорошо управляются и широко доступны, что очень важно для упрощения разработки ИИ-приложений.
«Важно то, как происходит обмен данными и что с этим связано, — говорит Роуленд-Джонс. — Как они обогащаются? Как вы понимаете их и рассуждаете о них как конечный пользователь? Получаете ли вы статистическую выборку данных? Можете ли вы понять, что это за данные? Документированы ли они? Регулируются ли они? Есть ли глоссарии? Можно ли использовать глоссарий в разных представлениях, чтобы люди не дублировали все эти усилия?».
Самым большим бенефициаром роста открытых платформ lakehouse на базе Iceberg являются предприятия, которые больше не зависят от поставщиков монолитных облачных платформ, желающих заблокировать данные клиентов, чтобы получить от них больше денег. Побочным эффектом появления озер-хранилищ стало то, что их потребители теперь имеют возможность свободно выбирать механизм запросов для удовлетворения своих конкретных потребностей.
«Ландшафт архитектуры данных находится на переломном этапе, когда требования ИИ и продвинутой аналитики меняют традиционные подходы к управлению данными, — считает Мэлони. — Этот отчет описывает, как и почему компании используют озера-хранилища данных для стимулирования инноваций, решая при этом такие важные задачи, как экономическая эффективность, регулирование и готовность к ИИ».