Компания Cray недавно объявила о поддержке своим новым поколением высокопроизводительных суперкомпьютерных кластеров серии CS300 открытой платформы Intel Distribution на базе Apache Hadoop.
Intel Distribution призвана упростить доступ к возрастающим объемам информации — большим данным. Система оптимизирована для работы с серверными решениями Intel и поддерживает шифрование данных с помощью Intel AES New Instructions (Intel AES-NI) в чипах линейки Xeon. Благодаря этому в Hadoop Distributed File System можно безопасно анализировать данные с сохранением высокой скорости работы комплекса. Для сравнения: анализ 1 Тб неструктурированных данных, который ранее занимал более четырех часов, теперь может быть выполнен за 7 мин.
По информации InformationWeek, системы серии CS300 смогут выполнять алгоритмы повышенной сложности, которые “раздвигают привычные возможности стандартных вычислительных архитектур”. Старший вице-президент и главный технический директор Cray Билл Блейк заявил, что при помощи новых систем предприятия смогут сосредоточиться на независимом от платформы Hadoop стеке ПО, поддержку которого обеспечат архитектурные особенности решения Cray и Intel.
Среди перечисляемых Cray преимуществ, которые предоставляет программный комплекс Intel Distribution на базе Apache Hadoop, указывается возросший уровень безопасности информации, ускоренное время обработки данных и повышенная производительность системы в условиях реального времени. По всей видимости, определения “возросший” и “ускоренное” косвенно намекают на то, что софт Cloudera, Hortonworks или IBM не столь оптимизирован для работы с Apache Hadoop, как в случае с решениями Cray, полагает издание.
Компания также упирает на то, что распределённые программы Hadoop гораздо дешевле и проще развёртывать на базе суперкомпьютерных систем, чем на “огромном количестве” серверов стандартной архитектуры. Несмотря на то, что Cray использует вроде бы те же “стандартные” серверы Intel, кластерные системы CS300 более “экзотичны”, чем обычные серверные стойки, так как используют жидкостное охлаждение. Более того, программный стек Cray специально разработан для высокопроизводительных вычислений (HPC). Наиболее доступная модель HPC-линейки Cray CS300 стартует от 500 тыс. долл.
Применение суперкомпьютеров для обработки больших данных позволяет говорить о качественно новом уровне аналитики и даже зарождении сегмента рынка больших данных, который эксперты IDC именуют как “высокопроизводительный анализ больших данных”.
Недавно Cray сформировала новое подразделение YarcData, которое будет заниматься продажей решений для работы с большими данными в крупных компаниях и организациях. Не исключено, что наряду со своим аппаратным обеспечением Cray будет использовать платформу обработки данных Hadoop в сотрудничестве с компаниями Cloudera или Hortonworks. Планируется также разработка решений для конкретных отраслей или областей применения.
Основу YarcData составляют специалисты ликвидированного в Cray направления Knowledge Management. Со временем к ним присоединятся и сотрудники из других подразделений, занимавшиеся исследованиями и разработками, маркетингом, продажами, предоставлением услуг и осуществлением технической поддержки.
YarcData — не единственный проект Cray, призванный расширить присутствие компании на рынке больших данных. В начале февраля сообщалось о появлении новых продуктов для сегмента суперкомпьютеров среднего класса. Системы, относящиеся к новому семейству Cray CX1000, стоят приблизительно 200 тыс. долл. и предназначаются для исследователей, которые не могут позволить себе более дорогостоящие суперкомпьютеры с производительностью, превышающей 1 Пфлопс.