После начального этапа широковещательных обещаний и прогнозов технологии Big Data постепенно становятся реальными инструментами для решения важных бизнес-задач. Одной из иллюстраций этого тезиса стали анонсы, сделанные ведущими вендорами на прошедшей в феврале в Сан Хосе очередной конференции Strata + Hadoop World.
В частности, Microsoft представила новую версию своего облачного Hadoop-сервиса Azure HDInsight 3.2, по сути реализующего модель «Hadoop как услуга». В нем теперь поддерживается Apache Storm — опенсорсная аналитическая платформа потоковой обработки в реальном времени больших массивов данных, поступающих от разнообразных устройств и датчиков. Благодаря интеграции со средой разработки Visual Studio программисты смогут создавать, отлаживать и развертывать Storm-приложения привычными средствами. В Azure HDInsight впервые в тестовом режиме реализована поддержка кластеров Hadoop на виртуальных машинах Ubuntu Linux. Использование в Azure HDInsight последней версии HortonWorks Data Platform 2.2, которая по словам разработчиков этой платформы нативно поддерживает как Windows, так и Linux, позволяет гибко варьировать по запросу число узлов кластера (и оплачивать только их), оперативно по мере необходимости добавлять в онпремисную среду Hadoop облачные узлы Azure HDInsight, на которых наряду с обработкой пиковых нагрузок, могут решаться задачи тестирования или резервного копирования.
Компания SAS представила SAS Data Loader for Hadoop — загрузчик данных из разнородных источников в распределенную среду Hadoop. Он ориентирован на менеджеров средней квалификации, которые средствами визуального интерфейса не прибегая к программированию смогут планировать процедуры загрузки данных и контроля их качества. Как считают в SAS, это позволит избавить высококвалифицированных специалистов категории data scientist от выполнения довольно рутинных операций, на которые им пока что приходится тратить до 80% своего рабочего времени. SAS Data Loader for Hadoop способен решать и обратную задачу — выгрузки подмножеств данных Hadoop в приложения, осуществляющие их анализ и визуализацию. Похожие задачи решает и агент Informatica Cloud, который, по утверждению представителей компании Informatica, способен работать в виртуальных машинах Linux and Windows на сервисе Azure и служит для обмена данными между службами Azure Machine Learning, Azure HDInsight и Azure Data Factory.
Реализуя концепцию дата-центричного предприятия реального времени, фирма MapR включила в свой Hadoop-дистрибутив распределенные средства синхронизации данных в равноправных узлах кластера, охватывающего географически распределенные дата-центры. Это позволяет избежать привязки данных к какой-то одной площадке, где они генерируются, и сделать их доступными для аналитической обработки всеми подразделениями предприятия, независимо от их местонахождения. Аналогичные цели преследует технология асинхронной репликации таблиц, контролируемых NoSQL СУБД MapR-DB, которая наряду с повышением отказоустойчивости обеспечивает возможность глобального развертывания приложений на базе Hadoop.