Разработчики, использующие Google Cloud Dataflow для создания конвейеров потоков данных, которые сочетают в себе задания на пакетную и потоковую обработку данных, получили возможность исполнения своих заданий на новом движке распределенной обработки Apache Flink.
Базирующаяся в Берлине компания Data Artisans, производитель дистрибутива Flink, выпустила для него модуль исполнения Cloud Dataflow. Этот модуль обеспечивает исполнение любой программы Dataflow на кластере Flink, размещенном в облаке или установленном локально.
Flink — это новый проект Apache Software Foundation по созданию движка распределенного исполнения приложений пакетной и потоковой обработки данных. Data Artisans характеризует Flink как альтернативу механизму MapReduce, который способен работать полностью независимо от экосистемы Hadoop.
Google Cloud Dataflow представляет собой программную модель для комбинирования задач по пакетной и потоковой обработке больших наборов данных. Технология создана для компаний, желающих извлечь ценную для бизнеса информацию как из данных в долговременных хранилищах (пакетная обработка), так и данных, передаваемых по сети (потоковая обработка). Некоторые сценарии использования потокового анализа предусматривают такие операции в реальном времени, как визуализацию данных, сигналы о событиях, мониторинг безопасности. Flink стала третьей по счету платформой, поддерживающей Dataflow.
Технология Cloud Dataflow появилась изначально как сервис на платформе Google Cloud Platform. Затем в декабре Google выпустила Cloud Dataflow Software Development Kit (SDK) для разработчиков, желающих перенести свои программы на другие процессные движки. И в январе Google и Cloudera анонсировали поддержку Dataflow на популярной платформе Apache Spark, которую разрабатывает Cloudera.
В своем блоге Data Artisans сообщает, что новый модуль позволит пользователям Dataflow упростить применение Apache Flink в качестве средства исполнения своих программ. Как утверждается в опубликованном посте, Flink и Cloud Dataflow хорошо подходят друг другу, поскольку обе технологии основаны на унификации процессов пакетной и потоковой обработки данных, утверждается в опубликованном посте. Применение Flink расширяет для пользователей число возможных вариантов по организации гибридной пакетно-потоковой аналитики как в облаке, так и в локальном ЦОДе.
Согласно сообщению Data Artisans, новый модуль Flink сейчас поддерживает полный функционал пакетной обработки Dataflow. Команда в данный момент работает над реализацией поддержки потоковой аналитики, но конкретных сроков не называет.
В размещенном в блоге анонсе новой разработки старший менеджер продуктов Google Вильям Вамбенепе утверждает, что модуль Flink повышает переносимость и производительность конвейеров Dataflow. «[Flink] предоставляет мощный исполнительный механизм, снабженный оптимизатором и системой управления памятью, — сообщил Вамбенепе. — Но главное в том, что вы получаете гарантированную возможность портирования ваших Dataflow-конвейеров с Google Cloud Dataflow на другую платформу.»
Аналитики из Forrester прогнозируют рост спроса на сервисы и технологии потоковой аналитики по мере того, как все больше организаций пытаются извлечь бизнес-пользу из огромных объемов данных, генерируемых в результате выполнения транзакций, Web-перемещений, использования мобильных приложений и облачных сервисов.
Главные конкуренты Google, Amazon и Microsoft, имеют в своем арсенале сервисы потоковой обработки данных в реальном времени, сходные с Dataflow. Amazon нахваливает свою технологию Kinesis за предоставляемую ею возможность анализировать терабайты данных в час. Microsoft создала свой механизм обработки событий Stream Analytics для тех же задач — помогать компаниям в реальном времени получать важнейшие выводы из потоков данных, генерируемых приложениями, устройствами и датчиками.