Сообщество открытого кода во главе с компанией MapR Technologies, производителем Hadoop, будет искать инновационные способы более быстрого выполнения пользовательских запросов данных к Hadoop.
Цель проекта с открытым кодом Drill под патронатом Apache Software Foundation — поиск более быстрых способов выполнения запросов Hadoop для корпоративных пользователей. По словам Томера Ширана, проект Drill создан в Apache Incubator и открывается для сотрудничества с разработчиками по всему миру. Томер — директор по менеджменту продукта в компании MapR Technologies, производителе Hadoop, и один из сторонников проекта Apache Drill.
Проект Drill будет посвящен работе над открытой версией внутренних инструментов Google Dremel Hadoop. Google использует Dremel Hadoop для ускорения работы инструментов анализа данных Hadoop.
“Мы потратили несколько месяцев на обсуждение Drill с организациями, потенциальными пользователями и нашими клиентами, — сказал Ширан, один из основателей проекта Drill. — Мы хотели представить проект с открытым кодом общему вниманию, а не держать его внутри MapR только для внутреннего пользования”.
Drill помогает пользователям Hadoop быстрее выполнять запросы к огромным массивам данных. “С помощью Drill вы действительно сможете получать быстрый результат. Пользователи получат ответ не более чем за секунду, что является ключевым отличием от других современных инструментов”, — добавил он.
Сегодня Hadoop выполняет пакетную обработку больших массивов данных, как и задумывалось. Drill улучшит эту технологию с помощью “интерактивного анализа”, помогающего быстрее находить ответ в данных, сказал Ширан: “Интерактивный анализ гораздо быстрее, чем пакетное выполнение”.
Необходимость инструментов, подобных Drill, инспирирована постоянно возрастающими требованиями пользователей: “Люди выполняют запросы Hadoop, но если результаты не появляются за несколько секунд, это ограничвает применение Hadoop”.
По мнению Ширана, с помощью Drill можно будет быстрее получать результаты запросов и выполнять ситуационный анализ (ad hoc analysis) при поиске аномалий, трендов данных и даже сетевых вторжений: “Для всех этих вещей требуется быстрое получение результатов. Или к тому времени, когда вы обнаружите нужную информацию, она уже устареет”.
Зарождающийся проект с открытым кодом Drill сегодня в разработке. Над ним работает множество компаний и индивидуалов. “Будут приложены обширные усилия, — сказал Ширан. — Над проектом активно работает немало людей. Я думаю, пройдет немного времени и мы увидим ранний релиз”.
По словам Ширана, Drill был инспирирован проектом Google Dremel, который помогает Google анализировать большие массивы данных — анализ веб-документов, найденных веб-пауком, отслеживание данных по установке приложений в Android Market, анализ спама, анализ результатов тестов в распределенной системе билдов и многое другое.
Разрабатывая Drill как проект с открытым кодом под патронатом Apache, организаторы смогут создать гибкую и надежную архитектуру, собственные API, обеспечить поддержку широкого диапазона источников данных, форматов данных и языков запросов.
MapR предлагает две версии Hadoop: свободную MapR M3 и коммерческую версию MapR M5 с расширенными функциями, включая высокую доступность, поддержку снапшотов данных, зеркалирование наборов данных и поддержку в режиме 24/7.