Иркутская компания ITSumma разработала opensource-плагин для Apache Spark, который значительно ускоряет обработку данных за счет параллельных операций чтения и записи.
Решение spark-greenplum connector — это многофункциональный плагин для платформ обработки и анализа больших данных. Используя его, вместо встроенного в Apache Spark коннектора, дата-инженеры смогут увеличить скорость чтения и записи из и в базу данных Greenplum в десятки раз и быстро масштабировать количество подключаемых и обрабатываемых источников.
С помощью коннектора инженеры смогут настроить структурированный стриминг с использованием микропакетной обработки. Эта функциональность помогает получать оперативные обновления требуемых данных, что повышает скорость обработки практически до реального времени.
У spark-greenplum connector имеется ряд дополнительных возможностей. Например, использование анонимного блока или функции PL/pgSQL в качестве источника или поглотителя данных при операциях чтения и записи. Это позволяет делегировать часть обработки данных на сторону БД.
На его основе можно строить ETL-решения и анализировать данные in-memory. Он обладает высокой скоростью передачи данных, большой гибкостью в настройке, а также:
— автоматически формирует схемы данных;
— разбивает вычисления на параллельные независимые потоки;
— поддерживает push-down операторы.
Apache Spark и Greenplum — это популярные opensource-решения, которые используются в большинстве российских платформ по работе с большими данными. Поэтому разработка будет интересна многим компаниям.
«В текущих условиях подобные решения, которые обеспечивают работу систем обработки больших данных, имеют импортозамещающее значение. Учитывая важность этого, мы решили выложить наш коннектор в открытый доступ», — говорит Тимур Хасанов, технический директор ITSumma.
Репозиторий доступен по ссылке.