Технологии grid-вычислений открывают сегодня все новые рубежи внутреннего и внешнего пространства

Спросите менеджеров ИТ о том, что им несут "решетки" вычислений, и вы получите массу разнообразных ответов. Корпоративные предприятия переходят на grid-технологии ради решения таких ресурсоемких задач, как имитация землетрясений, финансовое моделирование, создание новых алгоритмов. Исследовательским учреждениям, многие из которых поддерживают тесную связь с Суперкомпьютерным центром Сан-Диего (SDSC), grid-вычисления помогают исследовать галактику, прогнозировать движение земной коры, находить новые методы лечения различных заболеваний.

"Решетки" могут быть самого разного масштаба, от простого серверного кластера внутри компании до глобальных распределенных систем наподобие той, которую развернул SDSC. Все зависит от того, какие задачи на них возлагаются. Так что же такое "решетка"?

"Я смотрю на "решетки" с точки зрения их потребительских достоинств - они открывают пользователю путь к удаленным ресурсам, которые без этого оставались бы ему недоступными, - говорит Филип Пападопулос, директор программы решеточных и кластерных вычислений SDSC, действующей при Калифорнийском университете в г. Сан-Диего. - Проще всего эту технологию можно представить себе так: имеется вычислительная платформа в одной точке и данные - в другой. И нужно наладить связь между ними, что бы их ни разделяло - территория кампуса или целой страны".

 

 

На фотографиях представлены (слева направо) модель деления клетки, изображение

поверхности Земли в формате ChromaDepth и имитация ударной волны землетрясения

Чем больше требуется данных, тем обширнее по своей географии и сложнее по структуре становятся "решетки". Впрочем, как подчеркивает директор SDSC г-жа Фрэнсайн Берман, в "решеточном" мире расстояние особой роли не играет. Сама она вот уже два десятка лет занимается исследованием применения "решеток" в таких областях, как среды программирования, адаптация межплатформенного ПО, планирования и прогнозирования производительности.    

"Допустим, вы хотите добраться из Вашингтона в Сан-Диего, - приводит пример Берман. - Для этого вы задействуете и собственные ноги, и свой автомобиль, и такси, и автобусы, и самолеты, и многое другое. Одной только надежности каждого транспортного средства здесь будет недостаточно. Чтобы попасть из точки А в точку Б, все это должно быть четко скоординировано. Именно идея координации всех технологических ресурсов с помощью встроенного программного обеспечения и составляет основу "решеточных" вычислений".

"Решетки" центра SDSC, конечно, многократно превосходят то, что может развернуть у себя коммерческая компания. Тем не менее, как уверены и Пападопулос, и Берман, они вполне могут служить прототипом для проекта любой организации, стремящейся получить практически неограниченный доступ к вычислительным ресурсам.

 

Филип Пападопулос (слева) из штаб-квартиры центра SDSC

в Сан-Диего управляет вычислительной "решеткой", которая открыла

путь к новым областям научных исследований

Крупнейшая на сегодняшний день grid-система, по словам Пападопулоса, была создана в рамках проекта TeraGrid на основе нескольких кластеров с процессорами Intel Itanium. Занимая пост директора лаборатории перспективных киберинфраструктур SDSC, этот специалист активно участвует в разработке программ по сетевой связи и управлению с открытыми кодами, равно как и в мониторинге развернутой вычислительной "решетки". "TeraGrid включает в себя мощную машину на базе IBM Power-4 с производительностью 10 Тфлопс, подключенную к дисковому пространству хранения емкостью 500 Тб, - рассказывает он. - Здесь можно размещать огромные массивы данных для научного сообщества, а доступ к ним открывается как непосредственно с наших высокопроизводительных машин, так и через сеть".

Под "мощной машиной IBM" Пападопулос подразумевает систему eServer Blue Gene с 1024 вычислительными узлами и 128 узлами ввода-вывода. Каждый узел здесь оснащен двумя процессорами PowerPC с рабочей частотой 700 МГц и общим ОЗУ емкостью 512 Мб. Суммарная производительность такой машины составляет 7,7 Тфлопс.

Работа ученых и исследователей облегчается тем, что в серверном зале SDSC установлено около 800 компьютеров, на каждом из которых размещено программное обеспечение, связывающее их в единую "решетку".

"У нас есть несколько кластеров, специально выделенных для исследовательских работ национального масштаба, но основная часть ресурсов ориентирована на индивидуальных пользователей, - отмечает Пападопулос. - Чаще всего наши кластеры имеют 128 или 200 узлов, но очень много и 50-узловых кластеров".

В мае SDSC довел объем онлайнового дискового хранилища до 1,1 Пб, что стало эффектным дополнением для хранилища на магнитных лентах емкостью более 6 Пб и суперкомпьютерной памяти IBM DataStar емкостью 4,2 Тб. Для сравнения отметим, что в 1 Пб можно разместить текстовую информацию из восьми библиотек конгресса США.

С чего все начиналось

История grid-вычислений в SDSC уходит корнями в 1985 г., когда Национальный научный фонд США (NSF) решил создать суперкомпьютерный центр, сделав тем самым суперкомпьютеры доступными для научных исследований.

"До этого поработать на суперкомпьютере могли только те, кто имел дело с военными или министерством энергетики. Причем простого сотрудничества для этого было мало, нужно было еще заниматься секретными исследованиями, - напоминает Пападопулос. - Ученым же о такой вычислительной мощи оставалось тогда только мечтать".

Первая программа NSF выполнялась в течение 12 лет, а в 1997 г. ей на смену пришел новый проект под названием Partnership for Advanced Computational Infrastructure (партнерство в области совершенствования вычислительной инфраструктуры), чему немало способствовало распространение широкополосной связи. "Одним из стимулов стал переход с 56 кбит/с сетей, которые связывали наши вычислительные центры в 1985 г., на 45 Мбит/с сеть BBNS (BroadBand Networking Services - широкополосные сетевые сервисы) в 1994 г., - отмечает Пападопулос. - А к 1997-му центры обменивались информацией уже на скорости 155 Мбит/с. Этого оказалось вполне достаточно для пуска новой программы, ведь эпоха разрозненных суперкомпьютерных островков уходила в прошлое".

К 2001 г. пропускная способность сетей возросла со 155 Мбит/с до 655 Мбит/с, что позволило SDSC перейти к построению "решетки" TeraGrid. На сегодняшний день все исследования SDSC финансируются исключительно за счет грантов и премий, однако в первое время центру приходилось привлекать средства, передавая до 10% свободных циклов своих систем в коммерческое использование.

Наращивание TeraGrid

Многолетнюю программу создания и развертывания крупнейшей и сложнейшей в мире распределенной инфраструктуры для научных исследований Суперкомпьютерный центр Сан-Диего начинал вместе со своими партнерами - IBM, Intel и Qwest Communications International. Приняли в ней участие и другие корпоративные партнеры, включая Myricom, Sun Microsystems и Oracle.

Сегодня услугами TeraGrid пользуется не только сам центр SDSC, но и ряд других научных организаций. Их список весьма обширен. В него, в частности, входят Национальная лаборатория Argonne, Центр перспективных вычислительных систем Калифорнийского технологического института, Национальный центр суперкомпьютерных приложений NCSA при Университете штата Иллинойс в г. Урбана-Шампейн, Окриджская национальная лаборатория, Питсбургский центр суперкомпьютеров, Техасский центр перспективных вычислительных систем при Университете шт. Техас в г. Остине.

Построенная на Linux-кластерах IBM вычислительная

"решетка" TeraGrid центра SDSC объединяет

множество рассеянных по разным точкам

вычислительных узлов

Создание сети TeraGrid началось с монтажа кластеров на базе Linux-систем eServer, которые IBM Global Service развернула на исходных площадках Distributed Terascale Facility - в вычислительных центрах SDSC, Caltech, NCSA и Argonne. Это произошло в Ш квартале 2002 г. Все серверы были оснащены процессорами Intel Itanium, связующим ПО для создания вычислительной "решетки" и интерфейсными платами Myrinet фирмы Myricom для связи между процессорами.

Всего система способна хранить свыше 600 Тб данных, что эквивалентно 146 миллионам полнообъемных новелл. Солидная часть grid-инфраструктуры хранения приходится здесь на изделия и технологии семейства TotalStorage корпорации IBM.

Связь между Linux-кластерами поддерживается через сеть Qwest с пропускной способностью 40 Гбит/с, в результате чего образуется единая вычислительная система общей производительностью 13,6 Тфлопс (1 Тфлопс соответствует выполнению триллиона операций с плавающей запятой в секунду). Таким образом, система TeraGrid, по данным самой IBM, в тысячу с лишним раз превосходит суперкомпьютер IBM Deep Blue, одержавший победу над чемпионом мира по шахматам Гарри Каспаровым в 1997 г.

Как отмечают представители SDSC, на сегодняшний день Национальный научный фонд США уже затратил на TeraGrid около 100 млн. долл. При этом расходы самого центра оказались не столь уж велики, так как его роль ограничивается реализацией проекта по наполнению инфраструктуры данными и управлению знаниями путем подключения к "решетке" своих емких кластеров IBM Linux. В дополнение к этому SDSC выделяет для "решетки" TeraGrid и часть мощности десятитерафлопного суперкомпьютера DataStar. Для хранения данных, как упоминалось выше, здесь используются архивы на магнитных лентах корпорации IBM, а также хранилища SAM-QFS фирмы Sun. Их суммарная емкость составляет 6 Пб, из которых 1 Пб уже занят данными. Обращаться к таким колоссальным объемам информации, как поясняют представители SDSC, помогает высокопроизводительный сервер нового поколения Sun Enterprise E15K фирмы Sun.

Особая роль в формировании единой вычислительной "решетки", подчеркивает Пападопулос, принадлежит связующему ПО, в состав которого входит Globus Toolkit - программное средство единой регистрации пользователей во всей защищенной инфраструктуре Grid Security Infrastructure. Применяются здесь и программные приложения SRB (Storage Resource Broker - посредник ресурсов хранения). "Все это позволяет сводить физически распределенные ресурсы в единое хранилище данных", - поясняет Пападопулос.

Поскольку вычислительные "решетки" - дело пока новое, готового инструментария и связующего ПО для них рынок практически не предлагает, поэтому исследователям пришлось создавать такие компоненты самостоятельно. Для этого, как рассказывает Берман, был развернут проект на базе открытых кодов с целью создания инструментальных наборов, призванных помочь в разработке приложений для grid-систем. SDSC, в частности, лидирует в области технологии SRB и инструментальных наборов кластеризации Rocks.    

Фрэнсайн Берман: "Основу grid-вычислений

составляет координация технических ресурсов

с помощью интегрированного программного обеспечения"

Последние, по оценке Пападопулоса, намного упрощают построение кластеров. "Этот проект с открытыми кодами поможет ученым из университетских лабораторий развертывать масштабируемые вычислительные системы. Сделать это теперь не сложнее, чем установить обычную рабочую станцию", - говорит он.

Включение "решетки" в работу

Когда вычислительная "решетка" развернута, разработчикам и ученым еще предстоит включить ее в рабочий процесс. "Инновационные идеи легче всего реализовать в виде связующего ПО, как это было сделано с Globus, - уверен Фил Эндрюс, директор программы высокопроизводительных вычислений SDSC. - Если все проходит успешно, новинки естественным образом переносятся в инфраструктуру, где производится их оптимизация по надежности, прозрачности для пользователей и эффективности. Не выдержавшие такого экзамена просто исчезают, а прошедшие его становятся стандартными компонентами вычислительной среды. Вместо того чтобы изо всех сил цепляться за неудачные варианты, без конца пополняя их все новыми функциями, разработчики просто машут им на прощание рукой и начинают проверять новую инновационную идею. Сейчас, скажем, мы вместе с IBM стараемся реализовать технологию GFS (Global File System - глобальная файловая система), согласовав ее с уже используемой GPFS (General Parallel File System - общая параллельная файловая система)".

Но все это только одна сторона медали. "О grid-технологиях сегодня больше всего говорят ученые и пользователи из университетской среды, но их требования к grid-инфраструктурам намного отличаются от того, что нужно коммерческим предприятиям, - уверен Ларри Тэб, президент компании The Tabb Group из г. Уэстборо (шт. Массачусетс), специализирующейся на исследовании рынка. - В университетах стремятся всячески упростить работу с "решетками" и сделать их инфраструктуру легко доступной из других научных организаций, тогда как коммерческие вычислительные "решетки" должны быть жестко привязаны к инфраструктуре конкретной фирмы и не выходить за ее пределы. Есть у коммерческого потребителя и другие специфические требования. Ему, скажем, нужно видеть решение задач в реальном или близком к реальному времени, а университеты интересует не столько это, сколько массовая агрегация вычислительных циклов".

Ближайшие перспективы grid-технологий напрямую связаны с применением Web-сервисов. "На мой взгляд, - сказал Пападопулос, - ПО для grid-вычислений будет развиваться очень быстро. С технической точки зрения базовая инфраструктура вычислительных "решеток" уже начинает вливаться в инфраструктуру Web-сервисов. Иначе говоря, Web-сервисы дополняются другими аспектами".

Ожидает Пападопулос и бурного развития аппаратной инфраструктуры "решеток", что неизбежно повысит их производительность и вычислительный потенциал.

А Берман, со своей стороны, подчеркивает успехи "решеточного" сообщества, отмечая при этом и возникающие трудности.

"Как только пересекаешь границы доменов или государств, - говорит она, - так сразу же возникают серьезные проблемы с точки зрения безопасности, сред программирования для "решеток" и политики. А чтобы смоделировать производительность grid-среды, приходится имитировать не только сети, компьютеры и хранилища данных, но и динамическое взаимодействие между ними. Как ни много уже сделано для grid-вычислений, работа предстоит еще большая".