Интерес к технологиям Big Data приобретает в нашей стране практический характер. Об этом свидетельствуют результаты опроса руководителей 108 крупных предприятий, проведенного по заказу московского офиса Oracle. Как оказалось, 37% из них (в основном телекомы и банки) уже работают с технологиями больших данных (20% используют в бизнесе, 17% пока экспериментируют). По словам генерального директора компании «ФОРС дистрибуция» Антона Шифмана, их могло бы быть и больше, но пока не все заказчики понимают, как можно монетизировать указанные технологии. Свою роль играют также сложность и новизна технических решений, лежащих в основе Big Data.
Как считают в Oracle, существенно упростить работу с большими данными помогут специализированные программно-аппаратные комплексы нового поколения Oracle Big Data Appliance X5, выпущенные в январе нынешнего года. В июне этот комплекс был установлен в FORS Solution Center, входящем в состав «ФОРС дистрибуция», и теперь на нем будут проводиться демонстрации, тестирования и настройки клиентских решений. Из девяти комплексов категории Oracle Engineered Systems в FORS Solution Center местным заказчикам для непосредственного ознакомления доступны пять (Big Data, Exadata, Exalogics, Exalytics и Database Appliance).
Предполагается, что на новой платформе заказчики смогут строить решения в области бизнес-аналитики, клиентского обслуживания, быстрой обработки данных и создания социальных облаков, учитывающие специфику различных отраслей и сфер деятельности. Как убежден руководитель группы перспективных технологий «Oracle СНГ» Андрей Пивоваров, главное преимущество Oracle Big Data Appliance по отношению к решениям Hadoop, построенным на стандартных серверах, в том, что они предварительно сконфигурированы и протестированы вендором, а это существенно упрощает их развертывание и использование. Oracle Big Data Appliance X5 представляет собой стойку с 16 серверами стандартной архитектуры, дисковой системой хранения и сетевым оборудованием InfiniBand и Ethernet. В полной конфигурации поддерживается обработка и хранение 864 Тб данных. Возможна горизонтальная масштабируемость как вверх (путем подключения дополнительных стоек), так и вниз (доступны конфигурации 1/3 и 2/3 стандартной).
Наряду с системным ПО Oracle (Linux, Java, NoSQL Database, Oracle R) в состав продукта входит полный дистрибутив Cloudera Distribution Hadoop, включающий Cloudera Impala, Cloudera Search, Apache HBase, Accumulo, Spark, Kafka. В частности, Cloudera Impala позволяет в режиме реального времени обрабатывать SQL-запросы к данным, хранящимся в файловой системе HDFS, что обеспечивает инструментам бизнес-аналитики доступ к информации в среде Hadoop, не прибегая к явному использованию MapReduce, а Cloudera Search предоставляет средства полнотекстового интерактивного поиска информации, хранящейся в HDFS. Андрей Пивоваров особое внимание обратил на новый модуль Big Data SQL, который позволяет делать общие SQL-запросы к системе, включающей Hadoop, NoSQL и РСУБД Oracle. После того, как такой запрос поступает от приложения, его исполнение прозрачным образом распределяется между NoSQL- и реляционной СУБД (пока что поддерживается только Exadata) и средой Hadoop. Фактически часть SQL-обработки и фильтрации данных, которая обычно возлагается на СУБД, распределенно выполняется на узлах Hadoop.
Директор по технологиям компании «ФОРС Дистрибуция» и руководитель FORS Solution Center Андрей Тамбовский подчеркнул, что столь сложное решение требует особых усилий не только на этапе внедрения, но и в процессе дальнейшей эксплуатации. И здесь важно то, что его поддержка (включая и внешние программные средства) осуществляется одним вендором. Заказчику не придется самостоятельно заниматься трудоемкими процедурами многоуровнего апгрейда и патчирования BIOS, ОС, Java, Hadoop и т. п. Все это выполняется при помощи одной утилиты, запускаемой из командной строки, и делается после того, как пакет обновлений сформирован и протестирован вендором. Для первоначальной реализации обработки больших данных вполне можно использовать стартовый комплект Big Data Appliance (1/3 стойки: шесть серверов, 216 ядер 2,3 ГГц Intel Xeon E5-2699 v3, ОЗУ 768 Гб с возможностью расширения до 2,3 Тб, а также 288 Тб дисковой памяти), который собственно и установлен в FORS Solution Center.
Если продолжить тему преимуществ Big Data Appliance перед решениями, собранными из стандартных компонентов, то неплохо бы знать, какой экономией эти преимущества обеспечиваются. Представители Oracle говорят, что в терминах TCO их программно-аппаратные комплексы уже через три-четыре года эксплуатации экономически более эффективны, чем традиционные решения. Поскольку такие оценки существенно зависят от модели расчета, приведем цифры из официального прайс-листа Oracle. Цена конфигурации с полностью заполненной стойкой — 525 тыс. долл. плюс 63 тыс. долл. в год нужно платить за сопровождение, а 1/3 стойки — 185 тыс. и 22 тыс. соответственно. Следует учитывать, что ряд упомянутых выше программных модулей (Big Data SQL, Big Data Connectors, Data Integrator, NoSQL Database) не входят в состав стандартной поставки и должны приобретаться отдельно.
Есть ли в России заказчики, уже использующие Big Data Appliance? Как заявил Андрей Тамбовский, они есть, но раскрыть их имена он пока не может.
ФОРС приступил к формированию партнерской сети по Big Data. Названы и первые ее участники — российские компании CleverData и «Айкумен ИБС», занимающиеся анализом больших данных. Ведется работа и с ISV-разработчиками, которые теперь смогут тестировать свои приложения на Big Data Appliance, установленном в FORS Solution Center, в том числе и в удаленном режиме (облачный сервис «тестирование как услуга»). Здесь важно то, что частное облако ФОРС физически располагается в нашей стране, а это снимает проблемы трансграничной передачи данных.