Всего 30 серверов смогли сокрушительно побить рекорд высокопроизводительных вычислений, установленный кластером из более 22 тысяч вычислительных узлов. Колоссальное сокращение вычислительной инфраструктуры, потребовавшейся для нового рекорда в моделировании течений нефти, воды и газа, стало возможным благодаря тому, что для крупномасштабной параллельной обработки были использованы графические процессоры (GPU).
Если в первоначальном рекорде, установленном ExxonMobil всего несколько месяцев назад, для моделирования использовался кластер с более чем 716 тыс. ядер обычных процессоров (CPU), в новом подходе компаний IBM и Stone Ridge Technology были задействованы 30 серверов IBM OpenPower, оснащенных 120 GPU-ускорителями Nvidia Tesla P100.
Кластер IBM/Nvidia справился с моделированием нефтяного резервуара, разделенного на миллиард ячеек, с ПО Echelon за 92 минуты, опередив систему ExxonMobil. При этом, по словам IBM, использовались десятикратно меньшие ресурсы и стократно меньшие площади для оборудования.
Каждый из серверов IBM Power System S822LC объединял два процессора IBM POWER8 с четырьмя графическими процессорами Tesla P100, используя высокопроизводительный двунаправленный интерфейс шины NVLink со скоростью передачи 40 Гбит/с.
Как сказал Сумит Гупта, вице-президент IBM по высокопроизводительным вычислениям и аналитике, этот результат демонстрирует мощь архитектуры тесно связанных GPU и CPU. «Вывод состоит в том, что работая с Echelon на серверах IBM Power Systems, пользователи могут ускорить вычисления, задействуя значительно меньше аппаратуры. — заявил он. — В одном из недавних проектов использовалось больше 700 тыс. процессоров на серверной площадке, занимавшей примерно половину площади футбольного поля. Stone Ridge выполнила тот же расчет на двух стойках с системами IBM, занимавших место в половину площади стола для игры в пинг-понг».
GPU сильны в задачах, допускающих разбиение на подзадачи, которые затем можно исполнять параллельно на тысячах энергоэффективных ядер внутри каждого отдельного GPU. Каждый из графических процессоров P100 имеет 3584 ядра, которые можно использовать для параллельных вычислений, и поэтому для численного моделирования можно создать кластер, содержащий больше 460 тыс. ядер.
Хотя массивно-параллельная обработка на базе GPU пока применима к ограниченным классам задач, их число, утверждает Nvidia, продолжает расти, и сегодня они включают вычислительную гидрогазодинамику, строительную механику, моделирование климата и другие задачи, связанные с промышленностью и научными исследованиями.
Nvidia недавно начала продвигать свои GPU в качестве подходящей технологии для машинного обучения с упором на ускорители Tesla P100 и свой собственный сервер DGX-1.
Вместе с тем IBM в апреле добавила графические процессоры Tesla P100 в облако IBM Cloud с опцией оснащения индивидуальных облачных серверов на «голом железе» IBM Bluemix двумя платами ускорителя P100.