Cloudera, создатель наиболее распространенного дистрибутива Hadoop, объявила о выпуске версии 4 своего варианта Hadoop с открытым исходным кодом, известного как CDH (Cloudera's Distribution including Apache Hadoop), а также продукта Cloudera Enterprise 4.0.
Это не просто повышение версии Hadoop-продукта Cloudera на очередную единицу, так как CDH 4 содержит новое ядро Hadoop 2.0 с целым рядом новых функций в рабочем, стабильном и поддерживаемом релизе.
Вот ряд примеров новых возможностей CDH 4.
- Высокий уровень доступности файловой системы HDFS (Hadoop Distributed File System) — ее сервер метаданных NameNode уже не является уязвимым звеном, так как может поддерживаться резервным оборудованием.
- Присутствие фреймворка MapReduce 2.0, который, как ни странно, допускает иные, чем MapReduce, алгоритмы обработки данных, как и возможность писать код MapReduce на языках, отличных от Java.
- Возможность продолжать использовать MapReduce 1.0 в сочетании с другими компонентами Hadoop 2.0.
- Полномочия уровня таблицы и уровня столбцов для СУБД HBase.
- “Сопроцессоры” для HBase с функциональностью, похожей на вставку триггеров в реляционные СУБД.
- Более детальное распределение заданий, обеспечивающее лучшую поддержку коммунального использования кластера.
- Интерфейс веб-сервисов RESTful к HDFS.
- Оболочка для Apache Pig и HBase на базе веб-браузера.
- Многочисленные улучшения производительности в MapReduce, HDFS и Flume.
А вот примеры интересных новшеств в Cloudera Enterprise 4.0.
- Мастер настройки и управления многими кластерами из одной консоли.
- Цветовые теплокарты, показывающие степень исправности кластеров Hadoop.
- Поддержка хранения баз метаданных в Oracle 11g, MySQL или PostgreSQL.
Одной из отличительных особенностей самой компании Cloudera, помимо возможностей дистрибутива Hadoop, является количество ее партнерских связей с фирмами, занимающимися BI (бизнес-интеллект) и “большими данными”. По информации Cloudera, на сегодня у нее имеется уже 250 таких партнерств.
Как мне удалось выяснить, в компании действует специальная техническая группа по партнерским связям, которая заботится о том, чтобы это были не просто бизнес-связи, а подлинная и надежная интеграция в интересах развития экосистемы. Это обстоятельство объясняет, почему почти все участники бизнеса в сфере “больших данных” хотят стать партнерами Cloudera.
Для больших данных сегодня настало важное время. Появилась крепкая экосистема, базовая платформа становится все более развитой и надежной, а средства обеспечения управляемости тесно приближаются к современным стандартам центров обработки данных. Давайте последим за тем, как эти приобретения будут абсорбироваться и использоваться в профильных компаниях и продуктах.