Microsoft продолжать строительство своей облачной аналитической платформы — компания анонсировала ряд сервисов и технологий, реализованных на базе облачного хранилища Azure Data Lake, о реализации которого было объявлено в апреле на конференции Build 2015.
Напомним, что в своем первоначальном значении Azure Data Lake (ADL) было представлено как гипермасштабируемое хранилище, ориентированное на решение в облаке задач Big Data, выполняющих две основные функции — сбор информации из широкого спектра источников и предоставление данных в удобном для обработки виде для разного рода сервисов и приложений. Архитектурно оно реализуется на базе файловой системы Hadoop, совместимой HDFS (Hortonworks Hadoop Distributed File System), которая должна быть интегрирована с аналитическими решениями Microsoft, а также на базе промышленных стандартов взаимодействия Hortonworks и Cloudera с различными вариантами Hadoop (Spark, Storm, Flume, Sqoop и Kafka). При этом ADL во многом реализуется на базе технологий Cosmos, которые ранее развивались в рамках решения внутренних задач Microsoft, и по сути является одним из ключевых компонентов прикладной аналитической платформы Cortana Analytics, объявленной главой компании Сатья Наделлой в июле этого года. Тут стоит также обратить внимания на содержательные аналогии используемых в названии слов: в данном случае Lake нужно переводить, скорее, как «водохранилище» (искусственный водоем, пополняемый из множества источников), а отсутствие Big при Data отражает современное понимание темы — теперь все данные по умолчания считаются большими.
Согласно нынешнему анонсу, то, что раньше называлось ADL, теперь именуется как ADL Store (магазин), — единый репозиторий, куда можно помещать данные любых размеров и типов (структурированные, неструктурированные, полуструктурированные), не беспокоясь о вопросах масштабирования и производительности. В том числе, хранилище способно собирать информацию от широкого спектра устройств и датчиков, работающих в реальном времени. Собранная информация может быть безопасным образом распространяться для различных ее потребителей (задачи собственно обработки и анализа). В частности, получателями содержимого репозитория могут быть приложения IoT (Интернет вещей), сайты онлайновых магазинов, независимо от используемых ими ИТ-мощностей.
Термин Azure Data Lake теперь будет использовать для обозначения всего комплекса аналитических средств. Помимо Store в него уже сейчас входят ADL Analytics и Azure HDInsight. Первый их них представляет собой динамически масштабируемый аналитический сервис, функционирующий на базе Apache YARN (Apache Hadoop NextGen MapReduce). В нем используется язык масштабируемых распределенных запросов U-SQL, который можно применять для получения информации не только из Azure Data Lake Store, но также через SQL Server (в среде Azure), Azure SQL Database и Azure SQL Data Warehouse. Azure HDInsight теперь является компонентом Azure Data Lake, он позволяет работать с кластером Apache Hadoop, функционирующим на базе целого спектра открытых аналитических движков (включая Hive, Spark, HBase и Storm). Microsoft объявила, что SLA по обслуживанию кластеров на базе Linux будет гарантировать уровень 99,9% доступности. Кроме того, ADL включает инструментарий Azure Data Lake Tools for Visual Studio, которые позволяет создавать аналитические приложения с поддержкой архитектуры Hadoop в среде популярной платформы разработки Microsoft.