Организациям, которые ищут аналитические базы данных, способные обслуживать огромное количество запросов к массивным наборам быстро меняющихся данных, стоит ознакомиться с последним отчетом Gigaom Sonar об аналитических базах данных реального времени, сообщает портал Datanami.
Аналитические базы данных реального времени — это относительно новая категория продуктов, появившаяся за последние несколько лет для обслуживания наиболее требовательных аналитических рабочих нагрузок. Предложения в этом секторе объединяют существующие технологические возможности, такие как онлайновая аналитическая обработка (OLAP) и потоковые данные, в новые способы решения новых задач обработки данных в огромных масштабах.
В новом отчете Gigaom Sonar Эндрю Бруста, многолетнего директора по исследованиям аналитической группы, рассказывается об этом развивающемся рынке и его крупнейших игроках, включая Aerospike, ClickHouse, Imply, Kinetica, Materialize, MotherDuck, SingleStore, StarRocks и StarTree. (Бруст, несомненно, включил бы в список и компанию Rockset, если бы она не была приобретена OpenAI в июне.)
Автор отчета отмечает, что аналитические базы данных реального времени представляют собой не революционно новый тип технологии, а скорее эволюцию существующих. «Эти базы данных берут свое начало в традиционных базах данных OLAP. Однако они превосходят своих предшественников, предоставляя возможность подключаться к чрезвычайно большим (вплоть до петабайтных) объемам данных, часто из источников потоковых данных и источников пакетных или изменяемых данных (CDC)», — пишет он.
«Чтобы облегчить аналитику больших объемов данных с минимальной задержкой, базы данных этой категории используют структурные и архитектурные оптимизации, — продолжает Брукс. — Примеры включают ориентацию по столбцам, различные типы индексации, секционирования и сегментации, предварительные вычисления агрегаций для ускорения запросов и векторную обработку. Масштабируемость — устойчивость системы к возрастающим рабочим нагрузкам — и высокая доступность также важны для этой категории из-за критичного ко времени характера анализа».
На основе аналитических баз данных реального времени сегодня выполняются некоторые из самых больших и сложных рабочих нагрузок, связанных с большими данными. Примерами служат сотни миллионов ежедневных аукционов, проводимых рекламной компанией Sovrn (клиент StarTree), 1,5 млрд. событий, ежедневно обрабатываемых Cisco ThousandEyes (клиент Imply), а также варианты использования в Uber, Target и Netflix. Многие из самых сложных сценариев применения аналитики реального времени связаны с веб-приложениями, ориентированными на потребителя — благодаря уникальному сочетанию масштабируемости, свежести данных, производительности и задержки выполнения запросов, которые могут удовлетворить миллиарды пользователей.
Бруст оценил девять поставщиков по семи характеристикам, которые он считает наиболее важными для аналитических баз данных реального времени, включая оптимизацию хранения/аналитики, загрузку данных, предварительную аналитическую обработку, управление схемами, подключение клиентов/инструментов, масштабируемость и высокую доступность.
В результате первое место заняли ClickHouse, Imply, Kinetica, StarRocks и StarTree, набравшие в среднем по 2,6 звезды (из трех). SingleStore заняла шестое место с оценкой 2,4, MotherDuck — седьмое с оценкой 2,3, а Aerospike и Materialize разделили восьмое место с оценкой 2,1.
В отчете представлен перспективный анализ решений поставщиков по архитектурному подходу (Innovation), а также определено, какое место занимает каждое решение с точки зрения обеспечения быстроты извлечения ценности (Feature Play) и сложности и надежности решения (Platform Play).
На диаграмме выше показано текущее положение каждого решения по этим трем критериям в виде концентрических полукругов, причем решения, расположенные ближе к центру, считаются более ценными в целом. Перспектива прогресса вендоров отображается стрелками, которые показывают ожидаемое направление развития в течение
Бруст отмечает, что все поставщики, включенные в отчет, считаются новаторами, и что все они создают платформы данных, а не просто предоставляют функции. Все продукты представляют собой «комплексные, всесторонне развитые» предложения.
«Рассматривая решения, важно помнить, что не существует универсальных „лучших“ или „худших“ предложений, — пишет Бруст. — В каждом решении есть аспекты, которые могут сделать его более или менее подходящим для конкретных требований заказчика. При сравнении решений и дорожных карт поставщиков потенциальные клиенты должны учитывать свои текущие и будущие потребности».