Gartner обнародовала результаты опроса членов своей группы Research Circle, свидетельствующие, что уровень внедрения Hadoop в корпоративную среду далеко не соответствует ажиотажу вокруг него.
Но, во-первых, такой опрос не совсем корректно отражает действительность. В отношении почти любой новой технологии обычно имеется большое различие между тем, как журналисты и аналитики предполагают использование технологии, и тем, как она используется в реальности.
Во-вторых, хотя по данным опроса Gartner констатировала, что всего лишь 26% организаций уже развертывают и запускают пилотные проекты или экспериментируют с Hadoop, мне кажется, что это очень многообещающая цифра. Лично я думал, что она чуть поменьше. Почему? Потому что до сих пор Hadoop был инструментом для специалистов, а не продуктом класса Enterprise. Ситуация меняется, но процесс далеко не завершен. Если принять это к сведению, то охват в 26% — очень приличный результат, а в перспективе эта цифра увеличится.
Hadoop и общераспространенная СУБД
В мае на конференции Microsoft Ignite софтверный гигант анонсировал предстоящий выпуск SQL Server 2016, будущей новой версии своей флагманской реляционной системы управления базами данных (RDBMS). Важной частью этого анонса было заявление, что компонент PolyBase, служащий мостом от SQL Server к Hadoop, войдет в основной релиз SQL Server, а не только в релиз Analytics Platform System и облачное решение Azure SQL Data Warehouse (которое само было анонсировано лишь неделей ранее).
Иными словами, Microsoft создаст возможность отображать данные, хранимые в Hadoop Distributed File System (HDFS), как внешние таблицы в SQL Server, и сделает эту функцию доступной всем корпоративным пользователям RDBMS. Учтем, что на рынке SQL Server является одной из главных RDBMS в терминах инсталлированных экземпляров и объемов продаж. Предоставление всем пользователям этой обширнейшей экосистемы доступа к данным Hadoop на базе уже имеющихся у них навыков работы (то есть с помощью запросов и языка программирования Transact SQL) — очень ценная вещь.
Противоположный взгляд
Есть и сторонники иной интерпретации опроса Gartner, которые утверждают, что интерес к Hadoop так или иначе ослабевает. Речь идет о готовности предприятий инвестировать в новые высококвалифицированные кадры и низкой продуктивности работы с Hadoop через его разношерстное хозяйство командных оболочек и скриптовых языков. Хороший механизм обработки данных должен работать под закрытым кожухом, а не на виду у его пользователей. Технология PolyBase в Microsoft SQL Server является только одним из архитектурных подходов, превращающих Hadoop в рабочую лошадку вместо орудия рутинного ручного труда.
Существуют и другие подходы как в смысле развертывания самого кластера Hadoop, так и в смысле работы с ним. По первому из этих направлений работают компании типа Qubole и AltiScale, а также (в менее абстрактном виде) Amazon Web Services, Microsoft и Google. Другие продукты и инструменты касаются пользовательской стороны Hadoop, иногда с SQL-интерфейсом, а иногда без него.
Hadoop — реальность, и пора к этому привыкать
Хранение данных в HDFS экономически может быть очень привлекательно. Во многих отношениях HDFS — козырное приложение Hadoop. Даже при отсутствии других мотивов Hadoop пригодится хотя бы для этого. Но для большинства пользователей технологии главную ценность Hadoop составляют созданные для него зрелые инструменты аналитики, уровни абстракции СУБД для Hadoop и облачные предложения Hadoop в форме сервиса. И для решения этих задач окно буквенно-цифрового терминала уже не соответствует духу времени.