Группа «Самолет» построила аналитическую платформу для работы с данными на базе концепции LakeHouse, последнего поколения архитектур, которое предполагает гибридную модель данных и объединяет достоинства классических DWH с гибкостью Data Lake. Данное решение реализовано в текущем году, оно полностью построено на стеке open source и позволяет компании применять самый современный подход к работе с Big Data. В мире единицы компаний на данный момент воплотили архитектуру LakeHouse на практике, «Самолет» поставил перед собой амбициозную задачу и успешно осуществил ее.
Новая концепция дает возможность более оперативно обрабатывать данные по сравнению с другими технологиями, экономя время на дополнительных циклах загрузки. Архитектура и подходы концепции LakeHouse расширяют традиционную аналитику данных, совмещая гибкость Data Lake с четкой структурой хранилищ. Это позволяет оптимизировать конвейеры захвата и передачи данных, и в рамках единой аналитической платформы обслуживать как запросы к готовым витринам, так и возможность работать напрямую с очищенными качественными данными в Data Lake. На текущий момент в контур аналитической платформы подключено более 120 мастер-систем и источников данных, LakeHouse включает более 10 тысяч объектов с реализацией 300 широких витрин в ClickHouse.
«Самолет» заинтересован в монетизации данных и эффективно применяет концепцию LakeHouse для обеспечения data-driven подхода и внедрения на практике data value chain. Значимым техническим преимуществом этой концепции считается изоляция хранения от вычислений по разным кластерам, что облегчает масштабирование. Немаловажным аспектом для «Самолета» также является возможность обрабатывать многообразие различных типов данных, включая изображения, видео, аудио, JSON-структуры и текст. Архитектура LakeHouse разрешает поддерживать различные рабочие нагрузки: от алгоритмов машинного обучения до SQL-запросов и распределенных вычислений. Они требуют разных технологий реализации, но все полагаются на один единый репозиторий, что позволяет нам обеспечивать единую версию правды данных. Таким образом, концепция LakeHouse отлично коррелирует с идеями цифровой трансформации и находит эффективное применение в «Самолете», — отметила директор по данным группы «Самолет» Ольга Свитнева.
«Самолет» ежедневно работает с большими массивами данных различных типов. Специфика строительной отрасли изначально предполагает обработку большого потока информации: финансовая отчетность по нескольким десяткам юридических лиц, заказы клиентов с дополнительными функциями, продажи, прогноз и оценка рисков и пр.
Использование Big Data предоставляет возможность осуществлять эффективную аналитику данных, применять современные подходы в промышленной эксплуатации, что в свою очередь позволяет строить прогнозы, своевременно менять стратегии продвижения, повышать уровень обслуживания клиентов и качество оказываемых компанией услуг.