Панорама

Что такое «коробочная» SIEM и когда она нужна?

Системный аналитик «СёрчИнформ» Павел Пугач рассказывает, как облегчить выполнение требований закона по внедрению SIEM …

От ITSM до ESM: почему архитектура данных платформы определяет успех масштабирования корпоративных сервисов

Компании, внедряющие ESM-подход — то есть расширяющие практики сервисного подхода в ИТ ITSM на HR …

15 мин на изменение логики продукта: как AI-ассистент Bercut помогает в интеграционных проектах

Одна из основных задач в ходе любого интеграционного проекта — настроить оптимальное взаимодействие данных …

Бесплатное решение в десятки раз ускоряет обработку данных

Пресс-релиз | 30.08.2023

Иркутская компания ITSumma разработала opensource-плагин для Apache Spark, который значительно ускоряет обработку данных за счет параллельных операций чтения и записи.

Решение spark-greenplum connector — это многофункциональный плагин для платформ обработки и анализа больших данных. Используя его, вместо встроенного в Apache Spark коннектора, дата-инженеры смогут увеличить скорость чтения и записи из и в базу данных Greenplum в десятки раз и быстро масштабировать количество подключаемых и обрабатываемых источников.

С помощью коннектора инженеры смогут настроить структурированный стриминг с использованием микропакетной обработки. Эта функциональность помогает получать оперативные обновления требуемых данных, что повышает скорость обработки практически до реального времени.

У spark-greenplum connector имеется ряд дополнительных возможностей. Например, использование анонимного блока или функции PL/pgSQL в качестве источника или поглотителя данных при операциях чтения и записи. Это позволяет делегировать часть обработки данных на сторону БД.

На его основе можно строить ETL-решения и анализировать данные in-memory. Он обладает высокой скоростью передачи данных, большой гибкостью в настройке, а также:

— автоматически формирует схемы данных;

— разбивает вычисления на параллельные независимые потоки;

— поддерживает push-down операторы.

Apache Spark и Greenplum — это популярные opensource-решения, которые используются в большинстве российских платформ по работе с большими данными. Поэтому разработка будет интересна многим компаниям.

«В текущих условиях подобные решения, которые обеспечивают работу систем обработки больших данных, имеют импортозамещающее значение. Учитывая важность этого, мы решили выложить наш коннектор в открытый доступ», — говорит Тимур Хасанов, технический директор ITSumma.

Репозиторий доступен по ссылке.

Печать

Бесплатное решение в десятки раз ускоряет обработку данных

Комментарии