Технологии Big Data отличает, кроме прочего, широкое использование модели Open Source. Причем, нередко свои разработки передают «под общественный контроль» не ИТ-компании, а те, что создавали свои программные средства по случаю или по необходимости. Последним примером такого рода стал онлайновый сервис аренды жилых помещений для путешествующих Airbnb, объявивший о передаче сообществу Open Source своего продукта Airpal, представляющего собой Web-интерфейс для исследования данных и выполнения SQL-запросов. Интнерфейс функционирует поверх Presto — in-memory технологии обработки SQL-запросов к распределенным массивам данных Hadoop. Сама Presto была в свое время разработана Facebook и в 2013 г. также была передана открытому сообществу Apache.
Как пояснили в Airbnb, первоначально целью создания Airpal было желание предоставить удобные и понятные инструменты анализа больших данных, которые были бы доступны не только 23 data scientists, умеющим обращаться с Hive и Presto, но и рядовым аналитикам и менеджерам. После того, как Airpal был введен в эксплуатацию, им уже воспользовались более 500 сотрудников, многие из которых прежде никогда не применяли SQL. По словам менеджера по этому продукту в Airbnb Джеймса Мэйфилда, популярности Airpal способствовали его удобный интерфейс доступа к данным и накапливаемый архив уже делавшихся другими пользователями запросов, которые можно модифицировать и применять повторно.
Изначально Airbnb, использующая для решения всех своих задач облачную инфраcтруктуру Amazon, для быстрого анализа накопленной информации применяла сервис облачной реляционной СУБД Amazon Redshift, функционирующей поверх хранилища данных Hive (объемом 1,5 Пб). Полтора года назад было принято решение, оставив на попечении Hive все задачи анализа исторической транзакционной информации, передать оперативную обработку нерегламентированных запросов от Redshift к Presto, поскольку при этом исключалась необходимость предварительной трудоемкой ETL-загрузки данных в хранилище. Несмотря на то, что для управления своим массивом данных Hadoop в облаке Amazon компания использует дистрибутив Cloudera, она отказалась от SQL-on-Hadoop интерфейса Cloudera Impala в пользу собственного Airpal. Он, в частности, дает возможность находить таблицы, видеть метаданные, разделы, схемы и выборки строк, писать запросы на интуитивно понятном языке, отслеживать их исполнение, создавать по результатам запросов новые таблицы Hive. Как утверждают в Airbnb, в качестве дополнения к Presto продукт Airpal способен работать с источниками данных Hive, HDFS, Kafka, Cassandra, MySQL, Postgresql и JDBC. При этом контроль доступа может осуществляться с помощью LDAP-средств.
Полагают, что появление опенсорсного инструмента Airpal даст на рынке средств SQL-on-Hadoop определенные преимущества продукту Presto. Однако для этого необходимо, чтобы сообщество Open Source не только разрабатывало Airpal, но и осуществляло его поддержку и обслуживание. Пока ни Airbnb, ни другие участники комьюнити о своих планах в этом отношении никаких заявлений не делали.