В феврале в Нью-Йорке состоялась конференция Spark Summit East 2016, посвященная вопросам развития технологий больших данных. Несмотря на инновационность обсуждавшихся тем, многие собравшиеся, как отмечает издание Syncsort, сравнивали ее с конференциями Strata+Hadoop World пятилетней давности. Главной отличительной чертой тех мероприятий была ориентация исключительно на интересы разработчиков без уделения должного внимания вопросам развития в интересах заказчиков.

Сравнение с Hadoop в данном случае неслучайно: последние два года парадигма развития этой платформы явно претерпевает смещение в сторону участия бизнеса. Аналогичную траекторию развития предсказывают и в отношении Apache Spark — эффективного и быстрого фреймворка для обработки больших массивов данных.

Ключевую роль на конференции играла компания Databricks — главный разработчик и коммерческий дистрибутор платформы Apache Spark, официально относящейся к разряду открытых (Open Source) систем для кластерных вычислений.

Spark 2.0

Матей Захария, технический директор Databricks и один из главных разработчиков Apache Spark, рассказал о трех основных изменениях, которые появились в новой версии Spark 2.0. Первое из них — это наращивание интеграции Spark с проектом Tungsten для устранения одного из основных ограничений фреймворка: недостаточной эффективности работы с памятью Java-приложений. Второе улучшение касается существенного прогресса в наращивании возможностей Spark по обработке потоков данных в реальном времени. Третье улучшение — это унификация структурированных данных, представленных в различных API для Spark, с формированием единого интерфейса, что значительно упрощает работу с фреймворком.

Особое внимание Захария обратил на растущую важность потоковой обработки данных в реальном времени. Он отметил, что нарастает потребность в четком соблюдении режима обработки в реальном времени в сочетании с генерацией запросов для пакетного и интерактивного взаимодействия. Платформа Spark, по мнению Захария, очень хорошо приспособлена для реализации подобных задач. Это достигается, в частности, за счет сочетания «структурированной потоковой модели расчетов» и технологии ETL (Extract, Transform, Load), что в итоге дает отличные результаты. Напомним, что ETL относится к технологиям обработки корпоративного класса, использующих механизм приведения данных к единым справочникам с целью их параллельной загрузки из разнородных учетных систем.

Spark Community Edition

Другим важным вопросом, который был поднят в докладе Захария, стала подготовка к выпуску бесплатной версии платформы Spark. Она получит название Community Edition и в настоящее время уже доступна в бета-версии.

Назначение новой версии — предоставить разработчикам бесплатный инструмент, с помощью которого они смогут ознакомить заказчиков со своей системой и в дальнейшем легко переместить ее на облачную платформу (Databricks), работающую в формате подписки.

Появление версии Community Edition поможет лучше разобраться, как работает Spark-система. В ней будет присутствовать комплект образовательных ресурсов, которые помогут получить навыки работы с большими данными через Apache Spark. В режиме онлайн будет доступен также образовательный ресурс MOOC.

Apache Arrow

Дальнейшие планы работ Databricks по развитию Spark связывают с интеграцией развиваемой платформы с Apache Arrow — одним из главных проектов последнего времени, который ведет Apache Software Foundation. Вектор развития Apache на основе Arrow направлен в сторону устранения эффекта параллелизма (появления параллельных, неупорядоченных потоков данных) в буфере памяти Intel-процессоров.

Суть разработки Apache Arrow состоит в трансформации данных, перемещаемых в память, переходе от ее построчной разметки к модели извлечения по столбцам. По оценкам экспертов, внедрение Arrow позволит в будущем поднять скорость выполнения запросов к большим данным в десятки, а возможно, даже в сотни раз при выполнении вычислений, связанных с анализом или извлечением данных.

В целом конференция показала, что предприятия проявляют высокую заинтересованность в использовании всех корпоративных данных, собираемых с помощью Интернета вещей, мобильных и стационарных систем. Как отметила Тендю Йогуртши, руководитель подразделения больших данных компании Syncsort, «организации хотят иметь универсальнаый информационный массив (хаб), через который можно было бы иметь доступ абослютно ко всем данным предприятия».