Всё большее количество компаний, использующих Apache Hadoop, считают его незаменимым аналитическим инструментом, способным улучшить процесс принятия решений и получить конкурентные преимущества. Большой набор достоинств помог создать совершенно новую экосистему для работы с облачными сервисами Google, Amazon, Rackspace, GoGrid, Joyent и другими. Тем не менее компании столкнулись с некоторыми серьезными ограничениями Hadoop. Для развертывания Hadoop в системах управления данными могут потребоваться экспертные знания по интеграции и использованию этого продукта и управлению им. Часто требуются значительные усилия для защиты данных и сохранения кластера в рабочем состоянии. Самой большой проблемой является возможность неуправляемого или слабоуправляемого переполнения хранилищ новыми данными.
Что является критически важным для развертывания Hadoop в компаниях разного масштаба? Наш источник — Джек Норрис, вице-президент по маркетингу в компании MapR. Он считает, что помимо повышенной производительности, масштабируемости и надежности Hadoop должен быть легко интегрируемым в корпоративную инфраструктуру. В частности, производственные платформы Hadoop должны обеспечивать следующие ключевые аспекты.