VMware представила новый проект с открытым исходным кодом Serengeti, нацеленный на виртуализацию платформы Apache Hadoop.
VMware реализовала новый проект с открытым исходным кодом под названием Serengeti, который поможет предприятиям быстро развертывать, эффективно контролировать и масштабировать Apache Hadoop в виртуальных и облачных средах.
Кроме того, VMware представила обновления по проекту Spring for Apache Hadoop и интеграционные разработки для vSphere и Apache Hadoop, помогающие в создании надежно работающей платформы Hadoop. VMware сотрудничает с Hadoop-сообществом, создавая дополнения к ключевым компонентам платформы, чтобы адаптировать их к виртуализации, обеспечить гибкие возможности расширения и улучшить производительность Hadoop в виртуальных средах.
По словам Джерри Чена, вице-президента Cloud and Application Services в VMware, “Apache Hadoop имеет перспективы в плане преобразования бизнеса, так как позволяет предприятиям использовать сверхбольшие объемы данных для извлечений преимуществ в конкуренции. Это одно из направлений нынешних крупных перемен в области приложений, и предприятия ищут способы внедрения этих новых технологий в свою практику. VMware сотрудничает с сообществом Apache Hadoop, чтобы корпоративные ИТ-отделы могли легко развертывать и управлять Hadoop в своих виртуальных и облачных средах”.
Де факто Apache Hadoop становится стандартом обработки больших данных, однако многие организации еще не используют потенциал этой платформы из-за сложностей в ее развертывании и эксплуатации, необходимости в выделении аппаратуры и неясности с вопросами безопасности и гарантированного уровня обслуживания, говорится в пресс-релизе VMware. Отделяя узлы Hadoop от нижележащей физической инфраструктуры, VMware переносит в Hadoop плюсы облачной инфраструктуры — быстроту развертывания, отказоустойчивость, оптимальную загрузку ресурсов, расширяемость и безопасное коммунальное использование платформы.
В посвященном Serengeti блог-посте, Ричард Макдугал, технический директор VMware по инфраструктуре приложений, написал следующее:
“Hadoop предоставляет возможность содержать огромные объемы данных в надежном хранилище, а MapReduce предоставляет фреймворк для программирования и параллельных вычислений с этим данными. Мы видим, что многие наши заказчики применяют различные высокоуровневые инструменты, задействующие потенциал нижележащей платформы параллельной обработки данных Hadoop посредством известных методов доступа к данным — например, Hive для работы с запросами или Pig для скриптовой обработки данных”.
Serengeti, доступный для бесплатной загрузки под лицензией Apache 2.0, представляет собой инструментарий моментального развертывания отказоустойчивого кластера Apache Hadoop на платформе VMware vSphere с добавлением стандартных компонентов Hadoop, таких как Apache Pig и Apache Hive. Используя Serengeti для эксплуатации Hadoop на базе VMware vSphere, предприятия могут обеспечивать готовность и управляемость Hadoop-кластеров с помощью самой проверенной и широко применяемой в мире платформы виртуализации, гарантирующей высокую готовность, отказоустойчивость и возможности динамической миграции.
По словам Тони Бейера, главного аналитика OVUM, “чтобы получить полноценное гражданство в корпоративной ИТ-инфраструктуре, Hadoop должна подружиться с ее технологиями и процессами. Ввиду ресурсоемкой природы кластеров для работы с большими данными виртуализация является важным элементом внедрения Hadoop. Участие VMware в проекте Apache Hadoop и ее новый проект Serengeti Apache являются очень нужными шагами, которые обеспечат предприятиям гибкость в создании опытных макетов и последующем развертывании Hadoop”.
VMware сотрудничает с ведущими поставщиками дистрибутивов Apache Hadoop, в том числе Cloudera, Greenplum, Hortonworks, IBM и MapR, чтобы обеспечить поддержку разнообразных вариантов платформы.
Для дальнейшего упрощения и ускорения корпоративного внедрения Hadoop компания взаимодействует с Hadoop-сообществом, внося свои коррективы в проекты Hadoop Distributed File System (HDFS) и Hadoop MapReduce, чтобы адаптировать их к виртуализации и получить возможность оптимально распределять данные и вычислительные задания по виртуальной инфраструктуре. Эти коррективы позволят предприятиям создавать более приспособляемые, безопасные и отказоустойчивые кластеры Hadoop. С техническими деталями можно ознакомиться здесь.
Обсуждая в своем посте разносторонние выгоды от виртуализации Hadoop, Макдугал отмечает:
“Полноценная платформа для работы с большими данными, как правило, состоит из распределенной файловой системы Hadoop, базовых компонентов MapReduce, hBase, Pig, Hive, Sqoop, а также адаптированной к большим данным SQL-СУБД, использующей традиционный SQL или распределенный SQL (типа Greenplum DB) для часто запрашиваемых полуструктурированных данных. Хорошей стратегией является построение общей разделяемой платформы, вмещающей все технологии обработки больших данных. При виртуализации все аппаратные узлы могут стать общими, что исключает нужду в специальной аппаратуре для мастер-сервисов (NameNode), и если развернуть много кластеров, вам уже не надо заботиться о выделении специальных серверов под каждый мастер-сервис”.
VMware также представила обновления для Spring for Apache Hadoop, проекта с открытым исходным кодом, запущенного в феврале 2012 г. для того, чтобы корпоративным разработчикам было проще создавать распределенные вычислительные решения на базе Hadoop. Эти обновления позволят Spring-разработчикам легко конструировать корпоративные приложения, интегрирующие СУБД HBase, библиотеку Cascading и функции безопасности Hadoop. Spring for Apache Hadoop предоставляется для бесплатной загрузки по свободной лицензии Apache 2.0.
Все эти проекты и наработки VMware призваны содействовать ускоренному внедрению Hadoop и использованию интеллектуальных приложений для аналитики больших данных в реальном времени, таких как Cetas. VMware купила компанию Cetas в апреле этого года, а с аналитическим сервисом Cetas можно познакомиться на сайте www.cetas.net.