Достоинства Hadoop проявляются прежде всего при работе с большими данными. Однако, как показал практический опыт, у этой платформы есть и недостатки: невысокая скорость обработки данных, сбои, отсутствие полных мер по обеспечению безопасности данных. Тем не менее платформа Hadoop существенно меняется. Главные из этих изменений, как пишет в блоге Syncsort Кристи Уилсон, следующие.
Spark взамен MapReduce
В Сети ходит шутка, что название новой платформы Spark («искра») было выбрано неслучайно: ей достаточно «вспыхнуть», чтобы главный конкурент MapReduce «испарился».
MapReduce для кластерных вычислений применяется в Hadoop с момента появления платформы. Однако пользователям работа с MapReduce всегда казалась сложной. Альтернативой стал открытый (Open Source) фреймворк Apache Spark.
Главным достоинством Spark, по оценкам разработчиков, всегда считалось значительное ускорение обработки больших данных. Однако его преимущества не ограничились этим. Выяснилось, что с внедрением Spark как минимум половина операций по обслуживанию BI-задач передается от Hadoop к новому фреймворку. В результате бизнес-пользователи, привыкшие постоянно консультироваться с ИТ-специалистам при работе с MapReduce, сразу оценили свободу, полученную после внедрения Spark.
В результате совместная работа Apache Spark и Hadoop многими рассматривается сегодня как свершившийся факт.
Hadoop — основной инструмент для рынка Интернета вещей
В основе Интернета вещей лежат большие данные: это считается уже аксиомой. Но поскольку большие данные неразрывно связаны с Hadoop, то ее существование в паре с Интернетом вещей стало также очевидным.
Главным сдерживающим фактором на пути внедрения Hadoop для Интернета вещей были трудности, возникающие при работе с потоками данных в реальном времени. На решение этой проблемы были брошены усилия многих разработчиков, и теперь можно говорить о достигнутых результатах.
Значительный вклад в сближение Hadoop с Интернетом вещей внес набор инструментов для сбора данных Hortonworks DataFlow (HDF). После этого аналогичные элементы появились и в Flume, Kafka и Storm.
Расстановка сил на рынке Интернета вещей значительно изменилась с приходом в этот сегмент компании MapR, которая предложила технологию MapR Streams. Благодаря ей появилась глобальная поддержка потокового обмена данными для IoT-устройств.
Свой вклад в создание надежной платформы, готовой для внедрения Интернета вещей на корпоративном и потребительском уровнях, внесли HDF, Azure IoT Hub и другие инновационные решения задачи управления и обработки потокового контента в реальном времени.
Безопасность и управляемость Hadoop достигли уровня зрелости
Безопасность и управляемость долго время оставались ахиллесовой пятой Hadoop. Изменения, произошедшие в прошлом году и намеченные на
Прежде всего — это выпуск в 2015 г. новой версии Apache Falcon. Теперь за управляемостью данных в Hadoop может следить механизм Falcon, занимающийся диспетчеризацией и мониторингом исполнения принятых политик. Falcon, начиная с версии 2.2, стал также частью HDP.
С выходом новой версии разработчики получили возможность регламентировать правила использования данных, доступ и управление ими на протяжении всего жизненного цикла. Falcon ввел аудит данных, который поможет администраторам выявлять проблемы с безопасностью.
Много интересного Hortonworks собирается сделать в 2016 г. В ее планах наполнить платформу новыми функциями безопасности и управляемости данных. Она обещает сделать корпоративные решения более защищенными и надежными.
Свой вклад в наращивание безопасности Hadoop собирается внести и Cloudera. Сейчас она готовит новый релиз Cloudera Navigator Encrypt для RHEL 7.x, который является ключевым компонентом для управления зашифрованными данными в кластерах Hadoop на базе файловой системы HDFS. Новый механизм будет поддерживать шифрование по всей совокупности данных, присутствующих в Hadoop. Это обеспечит защиту для чувствительной информации, сохраненной во временных/распределенных файлах, базах метаданных и на подключаемых томах. Новый механизм будет работать в паре с сервером Navigator Key Trustee, что позволит управлять ключами шифрования с учетом регулятивных требований, в том числе на соответствие PCI и HIPAA.