В рамках объявленного осенью 2011 г. стратегического партнерства между компаниями Microsoft и Hortonworks были начаты совместные разработки в области “больших данных”, включая поддержку Apache Hadoop для служб Windows Server и Windows Azure. Открытая программная платформа Hadoop, основой которой является ПО на базе MapReduce (алгоритма для обработки распределенных данных), развивается некоммерческой организацией Apache Software Foundation, работающей также над распределенной файловой системой HDFS (Hadoop Distributed File System), языком программирования Pig и рядом других проектов.
Вице-президент Microsoft Тед Куммерт на конференции Pass Summit в Сиэтле (США) сказал, что интеграция Hadoop с SQL Server и Azure поможет удовлетворить запросы пользователей на эффективную обработку больших массивов данных: “Объединив технологии обработки данных с облачными технологиями, мы получим возможности, которые нельзя было даже вообразить всего несколько лет назад”. Глава Hortonworks обозначил тогда решение Microsoft как новую веху в развитии Apache Hadoop. Кстати, компания Hortonworks создана бывшими сотрудниками Yahoo, которые еще в 2008 г. запустили в пробную эксплуатацию кластерную поисковую машину из 10 тыс. процессорных ядер, управляемую средствами Hadoop.
А уже в декабре прошлого года для разработчиков стала доступна ПОЯСНИТЬ, тестовая сборка Hadoop-ориентированного сервиса для Windows Azure. Усилиями Hortonworks и Microsoft для MS SQL Server 2008 R2 было выпущено обновление Hadoop Connectors, облегчающее обмен данными между двумя системами. Запланированная Microsoft на март 2012-го вторая CTP-версия для Windows Azure пока что не реализована. Что касается CTP-версии инструментария для Windows Server, то, как предполагает обозреватель ZDnet Мери Джо Фоли, дополнительная информация об этом может быть обнародована Microsoft в середине июня на TechEd North America или Hadoop Summit '2012.
Известно, что продолжающуюся совместными усилиями Microsoft и Hortonworks разработку Hadoop-ориентированного сервиса для Windows Azure и Windows Server ведут под кодовым названием “Изотоп”. Поскольку “Изотоп” содержит расширенный инструментарий, включая, например, SQL Server Analysis Services, PowerPivot или Excel, решительно необходимый корпоративному сегменту, то его адаптация с файловой системой Hadoop может сместить планы Microsoft по выводу на рынок Windows Server в июне этого года.
Интерес, проявляемый Microsoft к Hadoop, можно считать совершенно закономерным: аналитики из IDC предсказывают, что 2012-й станет для этой технологии переломным годом: она перейдет из стадии “проверки концепции” в стадию широкого использования, хотя недостаток высококвалифицированных специалистов будет сдерживать рост заложенных в платформу технологий еще в течение двух-трех лет. Объем рынка ПО, базирующегося на платформе Hadoop, вырастет с 77 млн. долл. в прошлом году до 812,8 млн. в 2016-м, что соответствует среднегодовому приросту в 60,2%.
Интересно, что в 2009-м Microsoft разрабатывала прямого конкурента MapReduce и Apache Hadoop под названием “Dryad”. На раннем этапе существования Dryad был проектом Microsoft Research, подразделения, разрабатывающего системы распределенных вычислений разных масштабов — от небольших кластеров до ЦОДов. В состав проекта были включены компилятор DryadLINQ и среда исполнения. В том же году Microsoft выпустила сборки Dryad и исходный код DryadLINQ для некоммерческих целей. Для Dryad была разработана распределенная файловая система TidyFS, а также набор соответствующих инструментов управления данными Nectar и планировщик для распределения кластеров Quincy. В ноябре прошлого года Microsoft представила небольшое обновление для тестовой сборки Dryad, а также сообщила о том, что это последнее обновление для этого продукта и компания не планирует развивать его дальше.
Команда разработчиков Dryad в своем блоге написала о причинах такого решения: “Hadoop стал отличной платформой для анализа неструктурированных и больших объемов данных по низкой стоимости, которая хорошо сочетается с видением Microsoft относительно своей информационной платформы, а также имеет активное сообщество пользователей и разработчиков, стремящихся к инновациям. Microsoft не только хочет сделать вклад в это сообщество, но и помочь адаптировать его наработки для крупных организаций”.
О важности Hadoop для крупного бизнеса уже можно судить хотя бы по тому, что на предстоящем июньском Hadoop Summit '2012 среди “платиновых” и “золотых” спонсоров числятся такие компании, как Cisco, IBM, Microsoft, Teradata, VMware, Intel и многие другие.