Эдуард Пройдаков, Александр Ливеровский
Известие о вводе в эксплуатацию отечественного суперкомпьютера производительностью в 1 Тфлопс вызвало в кругах специалистов, как в России, так и за рубежом, большой интерес. Мы побеседовали о нем с заместителем директора по исследованиям и разработкам Межведомственного суперкомпьютерного центра (МСЦ) Борисом Шабановым. Общение сопровождалось экскурсией по МСЦ, где нам показали все вычислительные комплексы и сам новейший суперкомпьютер, вплоть до отдельных блоков, что развеяло всякие сомнения в реальности данного события.
Суперкомпьютер МВС 1000М
PC Week: Какова история создания Межведомственного суперкомпьютерного центра?
Борис Шабанов: В 1994 г. была принята государственная программа по созданию телекоммуникационной сети для нужд науки и высшей школы. В ней участвовали Российская академия наук, Министерство образования, Госкомитет по науке, Российский фонд фундаментальных исследований. Подобные программы действуют во всех развитых странах: Германии, США и др.
PC Week: В США это Интернет-2, а в Германии?
Б. Ш.: В Германии - DFN, сеть, которая объединяет 13 вычислительных центров, в частности, DLA (Центр космических технологий), DMD (Центр информационных технологий), Институт Макса Планка и др. DFN на 90% финансируется Министерством науки Германии, а часть денег поступает от федеральных земель, для которых участие в подобных программах - и престиж, и рабочие места. Везде такие программы движутся в одном направлении.
Решение о создании нашего центра было принято 1995 г., но только в 1997-м нам дали деньги на покупку суперкомпьютера. В те времена, если помните, случилась серия скандалов, связанных с покупкой вычислительной техники у IBM и SGI. В результате осталась одна компания Hewlett-Packard - больше не у кого было покупать. Мы приобрели симметричную мультипроцессорную машину V2600 на RISC-процессорах PA-8000. И не ошиблись. Впоследствии нам удалось сделать апгрейд и перейти на микропроцессоры PA-8600, что увеличило производительность системы примерно в 10 раз. Сейчас это 64-процессорный кластер с пиковой производительностью 141 Гфлопс. (Между прочим, несмотря на то что мы - Академия наук и проект имеет стратегическое значение, таможня с нас все равно берет пошлины за ввоз, как с оборудования, так и с лицензий на программное обеспечение.)
Кластер на серверах HP V Class
Центр продолжал развиваться, и в настоящее время кроме V2600 мы имеем: кластер МСЦ 2000, состоящий из 16 двухпроцессорных узлов на основе 550 МГц процессора Intel Pentium III (всего 32 процессора); комплекс МВС 1000/200 (128 Alpha 21164, 500 МГц) с пиковой производительностью 128 Gflops; отечественный суперкомпьютер МВС 1000М (768 ЦП Alpha 21264, 667 МГц). Это кластерная система с пиковой производительностью 1 Тфлопс. Она состоит из 384 вычислительных блоков (рис. 1). В каждом из них установлено по два процессора Alpha с 2 Гб ОЗУ, связанных друг с другом высокоскоростной сетью Myrinet (2 Гбит/с). Сеть поддерживает передачу данных между процессорами во время параллельных вычислений; система визуализации на рабочих станциях J2240 и J5000 фирмы Hewlett-Packard с мощными графическими акселераторами трехмерной графики; архивная система на базе двухпроцессорного сервера К-класса фирмы Hewlett-Packard (K580) с трехуровневой иерархией внешней памяти емкостью 10 Тб с программной системой оптимизации размещения информации по уровням.
Все вычислительные мощности объединяются локальной сетью по технологиям Gigabit Ethernet, Ethernet 10/100 и АТМ. Каналы ATM-155 Мбит/с, FastEthernet 100 Мбит/с, Thick Ethernet 10 Мбит/с соединяют МСЦ с глобальными сетями.
Эффективную разработку приложений и поддержку многопрофильных баз данных обеспечивает СУБД Informix. Для централизованного мониторинга и управления всеми ресурсами центра используется система HP OpenView.
Доступ пользователей к ресурсам МСЦ осуществляется с рабочих мест на основе UNIX-станций, X-терминалов и персональных компьютеров непосредственно в специализированном зале МСЦ, а также удаленно через Интернет, используя защищенные методы соединения.
PC Week: Помнится, что в соответствии с упомянутой программой было запланировано создание 20 суперкомпьютерных вычислительных центров.
Б. Ш.: Да, именно так. В этой программе было выбрано то же направление развития, какое принято во всех развитых странах, и в первую очередь в США, у которых очень активная позиция в области развития суперкомпьютерных вычислений. У них имеются целевые программы и специальные советы, которые развивают это направление. Есть даже совет при Президенте США. Их программы нацелены на обеспечение безусловного лидерства США в области суперкомпьютерных вычислений, что имеет первостепенное значение для национальной безопасности и развития страны. В этой программе есть оборонная составляющая - стратегическая компьютерная инициатива, а параллельно идет программа, финансируемая Национальным научным фондом для науки и образования. Еще в 1985 г. в США было принято решение создать сеть из пяти суперкомпьютерных центров.
С течением времени эта программа изменялась, и сейчас существует три центра: в университете Сан-Диего (Калифорния), Суперкомпьютерный центр штата Иллинойс, и в университете Питсбурга. Эти центры развиваются, в них вкладываются немалые деньги. В рамках этой программы строится Интернет-2, в который, кстати сказать, мы имеем прямой выход. Сейчас скорость нашего подключения 12 мбит/с, со временем ее планируется довести до 90 мбит/с.
PC Week: Планируется ли создание аналога Интернета-2 для академических институтов России?
Б. Ш.: Такие планы есть, и их осуществлением активно занимаются другие организации, как например, Центр научных телекоммуникаций РАН, Центр телекоммуникаций МГУ и РосНИИРос. (уточнить название)
PC Week: Что понимается под предоставлением вашим центром услуг?
Б. Ш.: В первую очередь мы предоставляем вычислительные мощности, а так как серьезные вычисления требуют хранения больших объемов информации, то и услуги по их хранению. Наш центр создан на бюджетные деньги, для ученых из институтов Академии наук, университетов, выполняющих работы по грантам РФФИ, Российского фонда технологического развития, наши услуги бесплатные. Вся информация находится в свободном доступе. Мы объясняем возможности системы, предоставляем документацию. То есть даем клиенту машину класса “Формулы-1”, а как он на ней поедет - зависит от его искусства.
PC Week: Какого рода задачи большей частью считают ваши пользователи?
Б. Ш.: 50% всех задач - биологические.
PC Week: В каком направлении развивается программное обеспечение комплекса?
Б. Ш.: Прежде всего мы занимаемся совершенствованием системы управления ресурсами компьютера: распределением нагрузки и ее оптимизацией. Система работает на управляющей машине и планирует прохождение всех задач. Второе направление - совершенствование математической библиотеки. Третье - система мониторинга состояния комплекса. Если что-нибудь происходит, например, при счете задачи, использующей 512 процессоров, зависает один блок, то надо срочно принимать меры.
Кластер из 16 ПК имеет пиковую производительность 17 Гфлопс
PC Week: Но ведь комплекс построен из надежных элементов. Что в нем может отказывать?
Б. Ш.: Ну, скажем, из-за изменения температуры немного меняется тактовая частота, а так как блоки работают синхронно, пропадает синхронизация и надо их ресинхронизировать.
Кроме того, важным направлением является совершенствование и развитие библиотеки MPI и развитие системы отладки параллельных программ, работающих на кластере. К ней относятся отладчики, профилировщики, обеспечивающие контроль за прохождением задач.
Еще одно направление - это программы, представляющие программисту кластер как систему с общей памятью, с когерентным кэшем.
PC Week: А как обстоят у вас дела с визуализацией результатов счета?
Б. Ш.: Это очень важная проблема. В Америке придают огромное внимание наглядному показу результатов расчетов. Там есть культура представления результатов, есть группы специалистов, которые помогают исследователю визуализировать результаты. У нас тоже есть такая группа.
PC Week: На американском КРЕЕ еще лет двадцать назад были устройства вывода результатов расчетов на кинопленку, так что поведение модели можно было посмотреть в виде фильма. У вас есть подобные устройства?
Б. Ш.: Такие технические возможности у нас есть. Проблема состоит в том, что нужны универсальные специалисты, которые понимают, как распараллелить задачу, чтобы ее сосчитать, как хранить результаты вычислений в базе данных и как надо представить результаты компьютерного эксперимента. А таких нет ни у нас, ни в мире. Поэтому создаются коллективы из специалистов какой-то предметной области, например биологов или специалистов по аэродинамике, к ним “пристыковываются” люди, не только хорошо знающие математику, но и понимающие, как задачу можно выполнить на параллельных машинах. К ним присоединяются специалисты, понимающие, как лучше представить результаты. То есть для каждой задачи создается своя междисциплинарная группа.
PC Week: Как структурирован центр?
Б. Ш.: Первый уровень - это дежурная смена. Она следит за работой техники и обеспечивает ее функционирование. Второй уровень - администрирование, инженерная и программная поддержка. Все аппаратные средства и программные продукты записаны за конкретными людьми, и если пользователь не может получить поддержку у дежурной группы, он выходит на какого-либо специалиста из второго эшелона. Также есть отделы, занимающиеся продвинутым администрированием. Их задача - развитие центра, выработка стратегического направления, и, кроме того, они работают с теми пользователями, которым не смогли помочь первые два эшелона поддержки. Тематический отдел занимается сетевой структурой, защитой, организацией доступа, мониторингом работы центра и т. п. Имеется также отдел управления базами данных - его специалисты помогают исследователю правильно организовать хранение полученных данных. (У нас под HP UX работают СУБД Informix и Oracle.) Третья группа - это специалисты по высокопроизводительным вычислениям. Они могут объяснить, как работать с комплексами и какие инструменты использовать. Четвертая группа помогает исследователю выбрать подходящее средство визуализации. У нас нет отдела, специально занимающегося разработкой приложений. Мы оказываем услуги и предоставляем вычислительные мощности, пользуясь которыми исследователь решает свои задачи. Перечисленные отделы консультируют пользователей и читают им лекции. В центре работают базовые кафедры Физтеха, МИЭТа и МИРЭА. Там мы читаем лекции и ведем лабораторные работы.
PC Week: Традиционным тестом для сравнения реальной производительности суперкомпьютеров является LINPAK. Какие результаты показывает на нем наш суперкомпьютер?
Б. Ш.: Сейчас на этом тесте мы показываем 60% от пиковой производительности. Предполагаем к сентябрю довести производительность до 70%. Это вполне приличный результат, если учесть, что на этом тесте суперкомпьютер КРЕЙ дает 85% от теоретической производительности, но это векторная машина.
PC Week: Какой суперкомпьютер сделан в Китае?
Б. Ш.: Структура у всех - кластер. Микропроцессор - SPARC, а сетевая технология такая же, как у нас.
PC Week: Появление новой машины существенно приблизило возможности МСЦ к американским суперкомпьютерным центрам - разрыв по производительности, который раньше измерялся порядками, теперь сократился до пяти раз. Надолго ли хватит такого запаса прочности?
Б. Ш.: В этой области, чтобы не отстать, нужно обновлять машинный парк каждые два года.
PC Week: Спасибо за беседу.