Начавшееся год назад формирование под флагом EMC так называемой федерации из трех компаний, тесно аффилированных с EMC (VMware, EMC Information Infrastructure и Pivotal), получило продолжение в виде интегрированных решений, включающих их продукты и выпускаемых под зонтичным брендом Federation. В прошлом году первым таким решением, призванным упростить создание программно-конфигурируемых дата-центров, стало Federation Software-Defined Data Center Solution. И вот только что EMC представило еще одно — Federation Business Data Lake, предназначенное для построения и эксплуатации так называемых озер данных, которые особенно полезны в задачах анализа больших данных.
Понятие озера данных (Data Lake) относительно молодо: согласно Wictionary, в широкий обиход его ввел в 2011 г. директор по технологиям компании Pentaho Джеймс Диксон. Data Lake — это массивный репозиторий данных, построенный преимущественно из недорогих аппаратных компонентов и предоставляющий прозрачный и легкий доступ к ним. В отличие от хранилищ данных (Data Warehouse), в которых находятся данные, предварительно обработанные и оптимизированные для задач бизнес-аналитики, лишенные ряда избыточных атрибутов и дополненные агрегированными значениями, в озера помещают сырые данные разной природы (структурированные, неструктурированные, потоковые) со всеми их атрибутами, допуская любые возможные технологии их обработки и последующего анализа.
Как пояснил директор департамента ISILON корпорации EMC в России и СНГ Святослав Сухов, в их решении существенную роль играют горизонтально масштабируемые файловые NAS-системы хранения семейства EMC ISILON, поддерживающие широкий спектр протоколов доступа к данным (NFS, SMB, HTTP, FTP, HDFS, REST). Они представляют собой кластеры СХД, которые можно формировать из разных моделей ISILON, от высокопроизводительных линеек S до высокоемких HD, и масштабировать от 16 Тб до 50 Пб. В состав решения входят также средства виртуализации VMware и доступа к данным от Pivotal (включая ее дистрибутив Hadoop) и ряда других компаний. Для анализа и визуализации предлагается применять продукты внешних поставщиков (SAS, Tableau, mongoDB).
Представляя на прошлогодней конференции EMC World федеративную бизнес модель, исполнительный директор EMC Джо Туччи говорил, что EMC Federation не собирается предлагать клиентам интегрированный стек из исключительно собственных решений, однако в данном случае мы не видим никаких альтернатив ни СХД ISILON, ни платформе виртуализации VMware. По утверждению Святослава Сухова, объясняется это тем, что у других вендоров NAS-систем, подобных ISILON, пока нет, но если они появятся, то вполне могут использоваться в Federation Business Data Lake. А поддержку иных средств виртуализации (скажем, Hyper-V) планируется реализовать в недалеком будущем. Правда, при этом вопросы интеграции разнородных платформ заказчикам придется решать самостоятельно, а в случае Federation Business Data Lake совместная их работа обеспечивается изначально.
Необходимую консалтинговую поддержку российским клиентам готовы предоставить как местное представительство EMC, так и партнеры компании. По мнению главы российского представительства Pivotal Сергея Золотарева, в нашей стране сегодня есть не менее 30 компаний, для которых применение данного решения принесет вполне реальную пользу. В частности, оно может стать корпоративной платформой для работы с большими данными. В отличие от общепринятых Hadoop-архитектур, где данные распределены по серверным узлам с автономными дисковыми подсистемами, здесь файловая система HDFS отделена от вычислительных ресурсов серверов и реализована в рамках озера данных. Полагают, что такой подход позволяет обеспечить защиту и безопасность данных, управление ими и настройку производительности на уровне, присущем критичным корпоративным ИС.