В сфере аналитики появляется новая категория продуктов для своевременного выполнения запросов к очень большим и очень быстро меняющимся данным. Название еще не утвердилось, но один из ведущих поставщиков в этой области называет свой продукт аналитической базой данных реального времени, сообщает портал Datanami.
Как только вы достигнете пределов возможностей традиционных хранилищ данных, таких как Snowflake, BigQuery или Redshift, вы можете перейти к более экзотической линейке распределенных систем. Лидеры в этой области — Apache Druid, ClickHouse и Apache Pinot — не совсем новички, но к ним наблюдается всплеск интереса, поскольку объем и скорость данных продолжают расти, а окно возможностей для действий с данными становится все меньше.
Эти базы данных объединяет не столько технология, которую они используют, сколько возможности, которые они могут предоставить. Все они отлично справляются с выполнением сложных SQL-запросов в стиле OLAP к очень большим объемам быстро меняющихся данных для большого числа пользователей и возвращают результаты за короткое время (как правило, субсекундное).
Одним из тех, кто с интересом наблюдает за тем, как Druid, ClickHouse и Apache Pinot конкурируют на развивающемся рынке аналитических баз данных реального времени, является Дэвид Ванг, вице-президент по продуктам и техническому маркетингу компании Imply, которая поддерживает разработку Apache Druid.
«Я думаю, это действительно интересно, потому что все всегда думали об аналитике как о BI и классической отчетности в стиле для руководителей и приборных панелей Tableau. Но этот совершенно новый мир разработчиков, создающих аналитические приложения, — говорит он. — Если вы посмотрите на эту категорию, то она включает в себя Apache Druid, ClickHouse, Apache Pinot. Это своего рода новая волна действительно быстрых аналитических баз данных реального времени, которые обслуживают этот новый сценарий использования».
Термин «реальное время» расплывчат и может иметь несколько значений, признает Ванг. Например, он может относиться к скорости, с которой генерируются новые данные, и иногда является синонимом потоковых данных. С другой стороны, реальное время может относиться к задержке запросов и скорости, с которой пользователь получает результаты. Но в конечном итоге это не имеет значения, потому что новые решения удовлетворяют критериям по обоим параметрам, отмечает Ванг.
«Есть точка пересечения на диаграмме Венна, когда вы пытаетесь делать реальную аналитику, но делать это в соответствии со скоростью, параллельностью и оперативным характером событий — поэтому вам нужно иметь что-то, что специально создано для этого пересечения, и именно здесь и появляется эта новая категория», — считает он.
Лучше всего рассматривать аналитических базы данных реального времени с точки зрения того, какую нишу они заполняют. По словам Ванга, этот новый класс СУБД удовлетворяет растущую потребность в анализе огромных объемов быстро меняющихся данных, генерируемых онлайн-приложениями.
Такие типы быстро меняющихся аналитических проблем имеют многие компании, например такие клиенты Droid, как Netflix, Target и ThousandEyes компании Cisco. Так же как и Sovrn, рекламная компания, которая использует хостинговую версию Apache Pinot от StarTree. Как и поисковый гигант «Яндекс», который разработал ClickHouse, а затем выделил его в отдельную компанию в сентябре 2021 г.
«Druid был создан на пересечении аналитики и приложений, — говорит Ванг. — Аналитика всегда представляла собой крупномасштабные агрегации, группировки и большие фильтрованные запросы, а приложения всегда представляли собой рабочую нагрузку, которая подразумевает высокий параллелизм, оперативные данные. Они должны быть очень, очень быстрыми и интерактивными».
ClickHouse, StarTree и Imply, возможно, не имеют такого же авторитета, как Snowflake или Databricks. Но среди технологов, которым нужны уже зарекомендовавшие себя продукты для решения сложных аналитических задач, они уже доказали свою ценность. Следует ожидать дальнейшего развития этой новой категории продуктов в ближайшие месяцы и годы.