Greenplum вероятно является самым скрываемым секретом в мире аналитических баз данных. Хотя Pivotal усердно выстраивала свой бизнес Cloud Foundry, продолжает процветать и ее бизнес Greenplum. Новый релиз предлагает возможности сочетания разнообразных рабочих нагрузок, что дифференцирует продукт. Однако вопрос в том, когда же Pivotal запустит управляемый облачный сервис Greenplum?
В первое время после отделения от EMC и VMware компания Pivotal казалась довольно необычной коллекцией бизнесов. Самые крупные ее части, Cloud Foundry и Greenplum, выглядели как крайне странная пара: облачная технология «платформа как сервис» и аналитическая СУБД. Было интересно разобраться в вопросах синергии между этими двумя вещами, как и в том, сможет ли Pivotal в конечном счете доказать, что сумма больше отдельных частей, и когда это произойдет. Однако то же самое говорили, когда Dell использовала частный капитал для покупки EMC, отчего образовался значительный долг. Через год после закрытия сделки между Dell и EMC денежный поток от совместного бизнеса вышел на уровень, четырехкратно превышающий объемы средств, необходимых для обслуживания долга.
Кто бы это знал?
Почти то же можно было бы сказать про Greenplum в составе бизнеса Pivotal. Находясь под присмотром Pivotal, Greenplum оперировала в тени Cloud Foundry, которая пользовалась основным вниманием и, возможно, львиной долей инвестиций. Компания вышла из бизнеса дистрибутивов Hadoop, сначала прекратив поставки собственной платформы, а затем войдя в партнерство с Hortonworks, из-за чего конечном счете оказалась под сенью IBM.
Поэтому свежий взгляд на Greenplum-бизнес Pivotal очень любопытен. В связи с чем, если синергии с Cloud Foundry по-прежнему не обнаружилось? Суть в том, что бизнес Greenplum идет прекрасно. Мы оценили, что его обороты составляют порядка 100 млн. долл. и Greenplum получает стабильную прибыль. И, что поразительно для бизнеса со стажем больше 15 лет, его нынешние темпы годового прироста выражаются солидными двузначными цифрами. В то время как материнская организация сияла в лучах Cloud Foundry, инсталлированная база Greenplum сохраняла полную лояльность и расширяла инвестиции в эту технологию.
СУБД Greenplum, являющаяся одним из форков PostgreSQL, конкурирует на одном и том же рынке с Teradata, Exadata и Redshift. С тех пор как Pivotal пару лет назад начала открывать исходный код своего продуктового портфеля, Greenplum фактически конкурировала с предложениями типа Teradata при расценках, более типичных для Hadoop. Как и ее соперники по технологии хранилищ данных, Greenplum постоянно расширялась за рамки традиционного SQL, она была одним из первых хранилищ данных, включающих MapReduce, и поддерживает машинное обучение через Open Source-проект Apache MADlib, в котором ее разработчики являются лидерами. И, подобно большинству своих конкурентов, эта СУБД также стала более эластичной, поддерживая разнообразные типы данных помимо традиционных структурированных реляционных. В ней также есть опция подключения к Spark, что ныне становится нормой для аналитических СУБД.
Ни одну из этих функций нельзя назвать уникальной, но если собрать вместе возможности масштабирования, исполнения высокосложных SQL-запросов и управления разнообразными рабочими нагрузками, ее низкие, по сравнению с Oracle и Teradata, цены оказываются привлекательными.
Сегодня нам представлен новый релиз, Greenplum 5. Его возможности стали еще шире благодаря поддержке текстовых и геопространственных данных, а также формата JSON. Можно сказать, что все это укладывается в тенденцию «не отставать от соседей», и большинство конкурентов Greenplum тоже становятся все более гибкими.
Поддержка разнообразных рабочих нагрузок создает предпосылки для родственного усовершенствования: способности управлять смешанными нагрузками и применения «разгораживания процессоров», когда конкретным типам рабочих нагрузок выделяются конкретные вычислительные ресурсы. Хотя большинство аналитических СУБД осуществляют управление рабочими нагрузками, способность балансировать нагрузки, интенсивные по вычислениям и потокам (в смысле IOPS) данных, традиционно ограничивалась системами верхнего уровня от компаний Teradata и Oracle.
Конечно, Hadoop с появлением YARN тоже обрабатывает смешанные нагрузки, и потому на первый взгляд возникает вопрос, что тут особенного? Однако способность Hadoop оптимально справляться с интерактивными, пакетными и потоковыми рабочими нагрузками в различных частях кластера остается в стадии разработки, потому что YARN только выделяет ресурсы и не может активно ими управлять или их оптимизировать.
Для нового релиза разработчики Greenplum еще лучше подстроили свой оптимизатор запросов под высокосложные операции Sub Select и вложенные запросы и добавили возможность конвертировать коррелированные запросы в более управляемые операции Join. Это подтверждает тот факт, что эта СУБД конкурирует с Teradata, но не с Redshift. Примем это к сведению.
Наконец, в Greenplum 5 добавлены сертификации для различных облачных провайдеров. Продукт уже доступен как IaaS-предложение (инфраструктура как сервис) в AWS Marketplace, куда вы можете либо принести собственную лицензию, либо использовать расценки по запросу. Greenplum также доступна через родственную компанию VMware vSphere и OpenStack для развертывания в частных облаках. В новом релизе добавлена сертификация для Azure, и скоро появится возможность работы с Google Cloud. Наличие многооблачных возможностей становится критическим фактором, так как по мере того, как организации расширяют использование облачных решений, большинство из них начинают разрабатывать политики, ориентированные на нескольких провайдеров, чтобы избежать замыкания на единственного облачного вендора.
Чего Pivotal Greenplum не хватает, так это управляемого облачного предложения. Хотя мы не ждем от Greenplum соревнования с Redshift в плане масштабов и индивидуального позиционирования в области высокосложной аналитики, управляемое облачное предложение позволило бы существенно расширить ее целевой рынок. Оно служит механизмом, который расширяет круг предприятий, могущих использовать возможности аналитики больших данных.
В конце концов, Pivotal Greenplum следует сорганизоваться для создания управляемого публично-облачного сервиса Greenplum. Но для начала почему бы не запустить предложение управляемого частного облака, используя — как вы догадываетесь — инфраструктуру Cloud Foundry? Сегодня это позволило бы прекратить сердитые вопросы надоедливых аналитиков насчет того, в чем реально заключается синергия между Cloud Foundry и Greenplum.