Как известно, вопросы энергоэффективности сейчас являются темой номер один в суперкомпьютинге (НРС). И чем ближе отрасль подходит к достижению заветной (психологически важной) производительности экзафлопсного уровня, чем масштабнее становятся системы, тем острее всеми воспринимается проблема экономии ресурсов. Эти ресурсы различны по своей природе, и способы их сбережения, как выясняется, также различаются.
Не претендуя на полноту исследования, рассмотрим отдельные стороны достижения энергоэффективности в HPC. К тому же (патриотический момент) как минимум по одному из показателей отечественная компания РСК недавно вырвалась в абсолютные лидеры.
RSC PetaStream
Еще пару лет назад РСК позиционировала себе как разработчик и интегратор суперкомпьютерных решений на основе прямого жидкостного охлаждения для систем, построенных с использованием архитектуры x86 — массово доступных на рынке стандартных компонентов. Но, как сейчас подчеркивает генеральный директор компании “РСК Технологии” Александр Московский, для создания по-настоящему эффективных разработок одного только жидкостного охлаждения явно недостаточно. Проект должен быть комплексным — необходимо тщательно продумать все, начиная от подводки электричества и заканчивая блоками питания и пр.
На крупнейшей мировой суперкомпьютерной выставке SC’2013, прошедшей в ноябре прошлого года в американском Денвере, на стенде РСК посетители могли видеть компактный модуль, объединяющий, по словам г-на Московского, до восьми вычислительных узлов с 60-ядерными сопроцессорами Intel Xeon Phi 5120D с 8 Гб высокоскоростной памяти DDR5, подсистему ввода-вывода, включающую серверную плату Intel S1600JP с процессором Intel Xeon E5-2600 v2, до пяти твердотельных накопителей Intel SSD серий S3500 или S3700 и сетевые адаптеры, такие как Mellanox Connect-IB или хост-адаптеры Intel True Scale.
Одна серверная стойка RSC PetaStream площадью 1 м2 и высотой 2,2 м умещает до 128 модулей (1024 узлов, объединенных высокоскоростными соединениями на базе технологии Infiniband FDR) и обеспечивает отвод более 400 кВт тепловой мощности. В компании уверяют, что это в четыре раза выше предыдущего достижения РСК и является новым мировым рекордом энергетической плотности. Кроме того, совокупная емкость локального файлового хранилища узлов в стойке достигает 0,5 Пб, а расчетная пиковая производительность — 1 Пфлопс (опять же явный мировой рекорд).
В РСК отмечают, что новое решение предоставляет заказчикам большую гибкость выбора типов интерконнекта за счет возможности подключения различных карт расширения, а также возможность выбора топологии создаваемой сети. Базовый модуль RSC PetaStream оснащен двумя слотами PCIe Gen3 x16 для подключения стандартных и нестандартных карт коммуникационных интерфейсов, что обеспечивает по четыре порта Infiniband FDR или QDR в дополнение к интегрированным четырем портам Gigabit-Ethernet. Каждый модуль имеет пропускную способность во внешнюю сеть, превышающую 200 Гбит/c, в случае использования двухпортового адаптера Mellanox Connect-IB.
Нетрудно заметить, что в RSC PetaStream применяются компоненты последнего поколения; как отмечает исполнительный директор группы компаний РСК Алексей Шмелев, “HPC не бывает второй свежести”. Это всегда все самое-самое актуальное — разработчики делают устройства настолько хорошими, насколько им это позволяет текущий технологический уровень рынка. В новом решении РСК помимо передового “железа” компания также сделала ставку на ряд прогрессивных подходов. В частности, по уверению технического директора “РСК Технологии” Егора Дружинина, впервые в России для HPC-оборудования был задействован отраслевой стандарт электропитания постоянного тока с напряжением 400 В. Как пояснил г-н Дружинин, сейчас в мире явно прослеживается тенденция к уменьшению количества преобразований энергии от источника к потребителю. Каждое преобразование (из переменного тока в постоянный, потом обратно и т. д.) снижает КПД системы, и если от них удается отказаться, то возникает весьма ощутимый кумулятивный эффект. Во-первых, уменьшается фактическое энергопотребление на дельту КПД — порядка 15%. (Заявленная эффективность задействованных в RSC PetaStream источников питания Emerson Electric составляет 92%.) Во-вторых, снижается необходимая мощность системы охлаждения на те же 15% (это очень существенно). В-третьих, что особенно важно для больших мощных дата-центров, имеет место переход на кабели меньшего диаметра, т. е. обеспечивается более высокая плотность монтажа.
Как уверяет г-н Дружинин, при использовании старых (а по сути, действующих) стандартов электропитания плотность энергии в PetaStream уменьшилась бы примерно вполовину. И при этом пришлось бы увеличивать систему охлаждения внутри шкафа, что также имело бы многочисленные негативные последствия.
Из других прогрессивных новых подходов г-н Дружинин выделяет использование технологии меникор (некое ее новое прочтение) — применение высокоскоростного интерконнекта для объединения огромного числа больших легких ядер архитектуры х86 под управлением ОС Linux. Также, не вдаваясь в подробности, г-н Дружинин упоминает об использовании весьма “высокоинтеллектуальной” платы ввода-вывода (опять-таки на Linux) и новую технологию изготовления охлаждающих пластин (у РСК они традиционно целиком накрывают платы).
Несмотря на то что о конкретных контрактах говорить пока рано, у RSC PetaStream, по уверению Алексея Шмелева, достаточно много потенциальных заказчиков в совершенно разных областях (промышленность, финансы и пр.). Правда, сейчас все они будут ждать первой реальной инсталляции, которая наверняка произойдет в научной среде — в одной из организаций, разрабатывающей подходы к экзафлопсу. Г-н Шмелев считает, что для ученых коллективов новинка РСК должна быть очень интересным аппаратным решением, которое позволит разрабатывать новые архитектуры как на аппаратном уровне, так и на уровне ПО.
Вычислительная плотность
Как отмечают эксперты, на последних крупнейших суперкомпьютерных выставках примерно 90% прозвучавших докладов так или иначе затрагивали тему энергоэффективности. На готовых системах измерять ее можно по-разному. Три основных подхода заключаются в оценке отношения производительности машины к единице занимаемого ею объема, отношения производительности к количеству затрачиваемой для ее получения энергии и отношения производительности к вкладываемой в создание и обслуживание кластера сумме денег. В общем, Тфлопс/м, Тфлопс/Вт и Тфлопс/долл.
Как правило, производители склонны апеллировать к первому показателю, опосредованно выражая его через указание производительности одной серверной стойки. И вот здесь начинается маркетинговое лукавство. Разработчики регулярно заявляют о рекордном показателе по отношению к стойке, “забывая” при этом, что серверные шкафы бывают разного размера — какого-либо четкого стандарта уже давно нет.
Из ярких примеров эксперты отмечают претензии на лидерство компании SGI — в ее решении 2013 г. ICE X для компании Total заявлено 183 Тфлопс на стойку, а также компании Eurotech, чья машина 2013 г. Tigon для центра Cineca с графическими ускорителями Kepler K24 располагает и вовсе 430 Тфлопс на стойку. Так как речь здесь идет не о прототипах, как в случае с RSC PetaStream, а о реальных установках, сравним их с последней инсталляцией РСК — “Торнадо” с сопроцессорами Intel Xeon Phi 7100X, развернутой в Межведомственном суперкомпьютерном центре (МСЦ) РАН в конце 2012 г., с заявленной плотностью 211,3 Тфлопс на стойку.
Попробуем объективно сравнить данных проектов и, взяв требующиеся данные из открытых источников, приведем значения плотности вычислений к общему знаменателю.
SGI ICE X — шкаф имеет размеры 24х54,75”х42U (61х139х200 см), что дает вычислительную плотность 183 Тфлопс/1,7 м3, или 107 Тфлопс/м3.
Eurotech Tigon — шкаф имеет размеры 110х150х240 см, что дает плотность 430 Тфлопс/3,96 м3, или 108 Тфлопс/м3.
“РСК Торнадо” — шкаф имеет размеры 80х80х200 см, что дает плотность 211,3 Тфлопс/1,28 м3, или 165 Тфлопс/м3.
Комментарии тут, как говорится, излишни.
Приведенные примеры “РСК Торнадо”, Eurotech Tigon и SGI ICE X стоят в одном ряду в плане архитектуры: два процессора Intel на узел, два сопроцессора или ускорителя, до 128 Гб (у Eurotech — 64 Гб) памяти на узел, сеть Infiniband FDR.
А теперь попробуем понять, что же нам предлагает РСК в разработке PetaStream. При размерах стойки 100х100х220 см имеем плотность 1035 Тфлопс/2,2 м3, или 470 Тфлопс/м3. То есть получается, что RSC PetaStream — это решение принципиально иного уровня. Разумеется, это пока только прототип, а разрыв между прототипированием и реальными установками — весьма больная тема в суперкомпьютинге. Так, многие уважаемые компании не один год раз за разом привозят на выставки разработки с жидкостным охлаждением, но о каких-либо контрактах ничего не слышно, и значит тестовые образцы либо так никогда и не пойдут в серию, либо пойдут с серьезными видоизменениями.
Тем не менее у РСК, как отмечают эксперты, перспективы достаточно оптимистичные. Для заказчика решающее значение имеет не только и не столько сущность разработки, сколько реальный опыт поставщика в инсталляциях аналогичного типа, причем достаточно больших — не 1—2 стойки, а хотя бы 5—10. И у РСК в этом плане все хорошо, следовательно, шансы представить в скором времени на суд общественности реальные проекты весьма высоки.
Корректно ли говорить о том, что РСК в разработке PetaStream оторвалась от своих конкурентов на определенный временной интервал? В каком-то смысле, наверное, да. Дело в том, что, по мнению ряда экспертов, если остальные компании на текущем оборудовании (комплектующих) до сих пор ничего подобного сделать не успели, то скорее всего каких-либо прорывов от них если и можно ожидать, то лишь с новым витком развития технологий — они сейчас станут его дожидаться, чтобы инвестиции в разработки не пропали зря. Соответственно раз новый существенный виток (по всем оценкам) ожидается году в 2015-м, то вот этот задел в 1,5—2 года и можно считать практически гарантированным отрывом РСК от конкурентов.
Энергорасход и финансовые затраты
Обратимся к оставшимся двум методикам оценки энергоэффективности суперкомпьютеров. Представление о том, кто лидирует по части экономии электроэнергии (по соотношению Тфлопс/Вт), наглядно демонстрирует рейтинг Green 500, являющийся тематическим дополнением к рейтингу Top 500.
Первую строчку в нем сейчас занимает система Tsubame-KFC — суперкомпьютер, разработанный в Научном информационно-вычислительном центре (Global Scientific Information and Computing Center, GSIC) при Токийском институте технологий совместно с NEC, Nvidia и другими национальными и зарубежными компаниями. Показатель энергоэффективности машины находится на уровне 4,5 Гфлопс/Вт.
Система состоит из 40 вычислительных узлов, объединённых сетью FDR InfiniBand. Каждый вычислительный узел представляет собой сервер форм-фактора 1U, оснащённый двумя процессорами Intel Xeon E5-2620 v2 (Ivy Bridge EP) и четырьмя графическими процессорами Nvidia Tesla K20 X. В каждом компактном корпусе размещается 40 узлов, погружённых в масло. Теоретическая пиковая производительность системы достигает 217 Тфлопс.
Информацию о физических размерах стойки найти не удалось, но речь здесь в любом случае идет о масле, да еще и в сочетании с внешним воздушным охлаждением с использованием специальных камер — дублирование системы охлаждения со всеми вытекающими последствиями.
Рассмотренные в предыдущем разделе лидеры по части вычислительной плотности в Green 500, прямо скажем, великими результатами не блещут. “РСК Торнадо” из МСЦ занимает лишь 46-ю строчку с результатом 1,69 Гфлопс/Вт. SGI ICE X из Total — 118-ю строчку с результатом 0,85 Гфлопс/Вт. На сайте компании Eurotech для системы Tigon заявлен показатель 3,2 Гфлопс/Вт, который мог бы позволить машине занять четвертую строчку рейтинга, но в официальном списке Green 500 мы ничего такого даже близко не наблюдаем.
Являются ли подобные значения поводом для беспокойства разработчиков — вопрос открытый. Существует мнение, что лидеры “зеленого” рейтинга в реальности работают не слишком эффективно.
Напоследок рассмотрим третий способ оценки энергоэффективности — денежный (Тфлопс/долл.) С ним все совсем не просто. Бюджеты больших систем часто не раскрываются или раскрываются только частично. При этом в стоимость инсталяции кроме стоимости компонентов входит маржа производителя, затраты на сервис, ПО, работы и пр. Кроме того, маржа иногда может быть вообще отрицательной: производитель теряет деньги на внедрении конкретной системы, но компенсирует расходы из других источников, например из госбюджета. В частности, такую практику используют компании Cray и IBM, продающие лидерские системы национальным лабораториям в убыток, при этом получая сотни миллионов долларов в год грантов от различных ведомств на НИР и НИОКР.
Если же говорить о сугубо рыночных механизмах формирования стоимости изделия, то она определяется суммой расходов на используемые компоненты, которая, в свою очередь, во многом зависит от объемов производства. Логично предположить, что стандартный процессор архитектуры х86 с набором инструкций может стоить дешевле, чем специализированный (и соответственно производимый меньшими объемами).
В общем, как бы ни привлекательна была метрика оценки энергоэффективности по финансовым затратам, в реальности ее применение фактически невозможно. Остаются вышеупомянутые две другие, которые, как мы уже отмечали, пока друг с другом соотносятся слабо. По всей видимости, объективное соотнесение результатов Green 500 с показателями вычислительной плотности — тема отдельного большого исследования.