Компания LinkedIn объявила о переводе своего фреймворка управления озерами-хранилищами (data lakehouse) OpenHouse в категорию Open Source, сообщает портал Datanami.
OpenHouse предлагает плоскость управления, которая предоставляет пользователям интерфейс для работы с управляемыми таблицами в Open Source-развертываниях озер-хранилищ. Теперь, благодаря открытому исходному коду на Github, организации любого размера могут воспользоваться преимуществами этой платформы.
OpenHouse был впервые представлен в прошлом году как инструмент для поддержки рабочих нагрузок машинного обучения и аналитики. Используя данные для принятия решений, OpenHouse позволяет пользователям LinkedIn получать более точные сведения о работе и общаться с профессионалами по всему миру для расширения своей сети контактов.
Среди основных функций OpenHouse — фундаментальные операции с каталогом, управление удержанием и подключаемость. Влияние OpenHouse оказалось значительным. По данным LinkedIn, OpenHouse сократил время вывода на рынок dbt-реализации LinkedIn на управляемых таблицах более чем на 6 месяцев. Кроме того, платформа позволила на 50% сократить трудозатраты конечных пользователей, связанные с обменом данными.
Развертывания OpenHouse построены на таких элементах, как вычислительные механизмы, каталог метаданных и распределенное хранилище. До выхода OpenHouse эти компоненты работали независимо друг от друга, являясь частью общей плоскости данных. Не было ни одной Open Source-системы, которая объединила бы их в единую плоскость управления. Это означало, что пользователям приходилось жонглировать несколькими системами и управлять таблицами по отдельности, что создавало дополнительные сложности и потенциальные несоответствия в системе.
Внедрив OpenHouse, LinkedIn обеспечила опыт, который сокращает трудозатраты на разработку продукта, позволяя пользователям взять на себя управление таблицами. Кроме того, это улучшает работу разработчиков для клиентов, использующих инфраструктуру данных, и повышает эффективность управления данными. LinkedIn уже внедрила в производство более 3500 управляемых таблиц OpenHouse, обслуживая более 550 ежедневных активных пользователей с широким спектром сценариев использования.
Способность OpenHouse предлагать полностью управляемые, общедоступные и регулируемые таблицы в развертываниях озер-хранилищ с открытым исходным кодом основывается на четырех руководящих принципах.
Первый заключается в том, что таблица — это единственная API-абстракция для конечных пользователей. Прямой доступ к файлам или блогам запрещен, так как весь доступ должен осуществляться через табличный интерфейс. Во-вторых, таблицы хранятся в защищенном пространстве имен хранения, которое полностью контролируется плоскостью управления. Это позволяет плоскости управления иметь свое мнение по поводу различных аспектов управления. В-третьих, таблицы управляются на основе установленных стандартов компании. И, наконец, таблицы регулярно обслуживаются для оптимизации производительности.
Рабочий процесс пользователя включает создание таблиц, настройку метаданных таблицы, загрузку данных в таблицы и совместное использование таблиц с помощью единой цепочки вызовов API, в основном с использованием стандартного синтаксиса SQL или Dataframe.
Озера данных LinkedIn делятся на две категории: самоуправляемые таблицы и централизованно управляемые таблицы. Самоуправляемые таблицы являются частными для конечных пользователей, но в них отсутствуют последовательные методы управления. С другой стороны, централизованно управляемые таблицы предлагают возможности общего доступа и поддержку управления таблицами. По данным LinkedIn, 65% таблиц относятся к категории самоуправляемых, что свидетельствует о необходимости более рационального подхода.
Хотя таблицы с централизованным управлением обеспечивают согласованность, они требуют длительного процесса регистрации. OpenHouse решает эту проблему, устраняя трения и операционные сложности традиционных процессов регистрации. Это позволяет пользователям самостоятельно создавать централизованно управляемые и доступные для совместного использования таблицы, которые соответствуют практике и политике управления организации.
Теперь, после того как LinkedIn открыла код OpenHouse, она ждет отзывы пользователей, чтобы понять, как платформа работает в различных средах. Компания также планирует сосредоточиться на внедрении OpenHouse в масштабах LinkedIn и решении сложных технических проблем при переходе от Hive к OpenHouse.