Формально Hadoop 1.0 дебютировал шесть лет назад, но ожидание стоило того. Эксперты полагают, что эта платформа с открытым кодом станет популярной в корпоративной сфере благодаря повышенным надежности и безопасности.
Не все поздравления в начале года звучали в честь 2012-го. Часть из них принадлежала разработчикам и администраторам данных, приветствовавшим появление Hadoop 1.0, фреймворка с открытым кодом от Apache Software Foundation.
Почему? По той причине, что использование больших данных и управление большими данными в наши дни является важным делом. Также важно ускорение обработки данных, аналитики и поиска.
Hadoop – масштабируемая, надежная вычислительная среда, помогающая в нахождении ценной информации в скоплении данных и содействующая повышению эффективности компаний и созданию новых источников доходов.
Hadoop v.1 разрабатываля долго, целых шесть лет. Арун Мурти, вице-президент Apache Hadoop, сообщил в интервью eWeek, что ожидание стоило того, чтобы эта версия Hadoop заняла важное положение в бизнесе: “В дополнение к значительным улучшениям безопасности и поддержке HBase для нас по-настоящему важно, что версию 1.0 воспринимают как очень стабильную. Сообщество разработчиков действительно поддерживает версию 1.0, и мы ожидаем, что версия 1.0 будет принята гораздо быстрее, чем другие”.
Hadoop 1.0 демонстрирует, каким должен быть коллективный процесс разработки. В него были вовлечены сотни пользователей, ученых и инженеров. Результатом стала более безопасная, более производительная платформа для облачных вычислений, анализа больших данных и управления ими.
Как заметил Мурти, Hadoop быстро превращается в предпочтительную платформу для данных. Не будет преувеличением предположить, что список пользователей Hadoop значительно расширится к концу года. Сейчас среди первых пользователей как титаны технологической индустрии, так и небольшие нишевые игроки.
Вот как используют Hadoop известные и не очень известные компании:
- Adobe применяет Hadoop для социальных сервисов, структурированного хранения данных и внутренней обработки информации. Сейчас работает 30-узловый кластер и планируется развертывание 80-узлового;
- Brockmann Consult занимается вопросами обработки данных о состоянии окружающей среды и геоинформационными сервисами. Компания использует параллельную обработку больших объемов информации, получаемых со спутников, с помощью своей системы Calvalus, базирующейся на Hadoop;
- в eBay в кластере из 532 узлов Hadoop служит для оптимизации поиска и исследования данных;
- Eyealike применяет Hadoop в своей технологии поиска изображений и видео, для таких задач, как поиск похожих лиц или автоматическое проставление тегов в социальных медиа;
- Facebook располагает двумя большими кластерами Hadoop для хранения внутренних журналов и источников данных для создания отчетов, аналитики и машинного обучения;
- Hulu использует Hadoop для хранения и анализа журналов на кластере из 13 компьютеров;
- Kalooga, сервис поиска в галереях изображений, применяет 20-узловый кластер Hadoop для веб-сканирования, анализа, и обработки событий;
- Twitter использует Hadoop для хранения и обработки всех твитов и других типов данных, сгенерированных в социальной сети;
- Yahoo располагает кластером Hadoop из 4500 узлов для исследования данных на своих веб-серверах и в рекламной системе. Он также служит для тестов масштабирования при разработке Hadoop для больших кластеров.
Такой широкий диапазон применения поражает. Hadoop, по заявлению одного из лидеров отрасли, явился тем же для обработки, управления и хранения данных, чем Linux для продвинутых операционных систем с открытым кодом.
Потенциал Hadoop впечатляет, выход следующего релиза платформы прогнозируется на середину года. Я думаю, через к этому времени продукт станет еще более надежным.