Arenadata выпустила новую версию Arenadata Hadoop (ADH) — корпоративного дистрибутива для хранения, обработки и анализа неограниченного объёма неструктурированных и слабоструктурированных данных. Релиз 3.3.6.1 включает масштабное обновление версий компонентов, доработки в части информационной безопасности и поддержку новой операционной системы.

В релиз вошла новая версия Smart Storage Manager (SSM) — инструмента для оптимизации хранения и управления данными в HDFS в зависимости от их востребованности («температуры»), настройки асинхронной репликации и др. Версия SSM 2.0.0-alpha получила полностью переработанный пользовательский интерфейс и ряд улучшений, включая оптимизированную стратегию подсчёта доступов и удаление зависимости от Zeppelin — в общей сложности более 100 доработок начиная с первого релиза SSM в марте 2024.

Помимо этого, в продукте обновлены версии основных сервисов, включая компоненты Hadoop (HDFS, YARN), вычислительные движки Hive, Impala, Spark и Flink, распределённый многопользовательский SQL-шлюз Kyuubi, а также Iceberg — библиотеку поддержки открытого табличного формата данных. В дополнение к новой версии в сервисах реализованы багфиксы и улучшения, направленные на повышение производительности и стабильности. В поставку с дистрибутивом добавлен ряд расширения для сервиса Flink, предназначенных для интеграции с Kafka, Hive и Iceberg-таблицами.

В контексте информационной безопасности в Arenadata Hadoop появилась функция шифрования конфиденциальных данных в конфигурационных файлах сервисов HDFS, YARN, Hive, HBase, Spark, Impala, Zeppelin, Kyuubi и Solr. Шифрование реализовано с помощью провайдера Hadoop или KMS и выполняется посредством нового кластерного действия — Manage Credential Encryption. Кроме того, релиз включает возможность активации протокола SSL/TLS для межкомпонентной коммуникации внутри сервиса Flink и поддержку SPNEGO-аутентификации для Hue, предоставляющую удалённый защищённый доступ к веб-интерфейсу.

В новой версии подсистемы безопасности Arenadata Platform Security 1.2.0 обновлены сервисы Knox и Ranger, добавлен плагин Ranger для SSM и проверка на конфликты портов, которая выполняется перед запуском некоторых действий.

Новая версия Arenadata Hadoop совместима с одной из наиболее популярных open source операционных систем — Ubuntu 22.04.2 LTS. Она введена в качестве альтернативы CentOS/RHEL 7.х, поддержка которых со стороны вендора уже завершена.

Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.

Решаемые задачи:

  • хранение и обработка больших объёмов слабоструктурированных и неструктурированных данных любого типа (системы управления документами и контентом, хранение и регистрация событий, данные датчиков, каталоги товаров, резервное копирование других СУБД);
  • распределённая обработка информации;
  • построение озёр и фабрик данных (единый центр всех данных компании, быстрое развёртывание и сворачивание «песочниц» для пилотных проектов и проверки статистических гипотез, работа с аналитическими инструментами в единой среде);
  • машинное обучение и искусственный интеллект;
  • источник данных для КХД;
  • импортозамещение систем западного производства.

На Arenadata Hadoop получено свидетельство о государственной регистрации программы для ЭВМ. Продукт включён в Единый реестр российских программ для электронных вычислительных машин и баз данных, а также в Реестр системы сертификации средств защиты информации по требованиям безопасности информации.