Даг Каттинг, один из пионеров технологии Big Data, занимающий ныне пост главного архитектора компании Cloudera, на недавней конференции Strata and Hadoop World обозначил ряд проблем, сдерживающих широкое применение Hadoop, и перспектив их решения в ближайшем будущем.
Каттинг вспоминает, что 10 лет назад, когда он только приступил к работе над фреймворком Hadoop, у него и в мыслях не было, что эта технология получит столь массовое распространение в корпоративном секторе. Сегодня она используется Facebook для анализа трафика 1,6 млрд. пользователей соцсети и Visa для выявления фактов мошенничества на миллиарды долларов. Привлекательность Hadoop объясняется дешевизной и простотой параллельной обработки больших данных в этой среде, базирующейся на кластерах серверов стандартной архитектуры.
В то же время есть ряд узких мест, ограничивающих производительность Hadoop. Одно из основных — низкая скорость обмена данными между дисковой подсистемой (SDD и HDD) и ОЗУ при обработке больших массивов данных. По мнению Каттинга, сейчас отрасль приблизилась к прорыву в этом направлении благодаря предстоящей в нынешнем году премьере чипов памяти Intel 3D XPoint, позволяющих загружать данные в тысячу раз быстрее, чем современные SSD-диски с технологией NAND, и обладающих плотностью хранения вдесятеро превосходящей нынешние DRAM. Его осведомленность в этом вопросе объясняется тесным сотрудничеством Intel с Cloudera, которая в 2014 г. инвестировала в эту компанию 740 млн. долл. В рамках партнерского соглашения Intel предоставляет Cloudera информацию о своих перспективных разработках с тем, чтобы они как можно раньше применялись в Hadoop.
Каттинг сообщил, что хотя на первых порах чипы XPoint будут доступны только в SSD под брендом Optane, в дальнейшем Intel планирует выпускать и отдельные модули такой памяти. Intel анонсировала выпуск в следующем году Xeon-серверов с объемом памяти 6 Тб, состоящей из комбинации чипов DDR4 DRAM и XPoint. Такое сочетание объясняется тем, что XPoint по скоростным характеристикам заметно уступает DDR4 DRAM. Опытные партии SSD на XPoint характеризуются временем задержки 7 мкс и быстродействием чтения-записи 78 тыс. IOPS, что существенно медленнее, чем у DRAM, но в 20 раз быстрее современных SSD. По мнению Каттинга, применение XPoint и других типов энергонезависимой памяти поможет обрабатывать более крупные наборы данных с меньшими задержками: «Операции, которые сегодня очень дороги и требуют много времени, такие как анализ графов или функции итерационного машинного обучения и кластеризации, будут выполняться быстро и поддерживаться на гигантских объемах исходных данных».
Еще одна важная актуальная задача — развертывание распределенных Hadoop-конфигураций в облаках. Уже сегодня есть возможность разворачивать кластеры Hadoop на разных облачных платформах. К примеру, пользователи дистрибутива Cloudera Distribution of Hadoop (CDH) могут с помощью Cloudera Director формировать кластеры из виртуальных серверов на платформах Amazon Web Services (AWS) и Google Cloud Platform. Однако Каттинг отмечает ряд ограничений, которые необходимо преодолеть для упрощения решения подобных задач. В частности, Cloudera планирует усовершенствовать загрузку данных из AWS S3 и других облачных хранилищ в обрабатывающие узлы Hadoop. Он убежден, что для динамического развертывания кластеров следует «сделать Hadoop и облачные хранилища гражданами одного сорта».
Каттинг считает, что для исключения привязки к одному провайдеру должен быть существенно упрощен и перенос Hadoop-кластеров с одной облачной платформы на другую. В настоящее время Cloudera разрабатывает средства, которые позволят пользователям самим принимать решение относительно размещения рабочих нагрузок на своей площадке или у таких облачных провайдеров, как Amazon, Google и Microsoft. Сегодня отдельные функции такого рода доступны в Cloudera Director.
В дальнейшем распределенные системы должны обеспечить принятие решений в реальном времени посредством оперативного включения в анализируемый массив как исторических данных, так и данных реального масштаба времени. Каттинг выразил уверенность, что в среднесрочной перспективе работа с большими данными станет нормой, использование СПО — повсеместным, а традиционные реляционные СУБД — превратятся в нишевые продукты.