Данные в NASA создаются прямо-таки космическими темпами, поэтому суперкомпьютерному центру управления приходится постоянно искать способы для эффективного и при этом недорогого хранения информации. Естественно, все накопленные сведения должны быть легко доступны для пользователей.
Примерно шесть лет назад руководитель отдела высокопроизводительных вычислительных систем NASA Пауэрс познакомился с решением DMF (Data Migration Facility) фирмы Silicon Graphics, которое благодаря автоматическому переносу данных по заданным правилам позволяет свести в общий пул хранилища на базе магнитных лент и жестких дисков. Тестирование пакета дало настолько хорошие результаты, что Пауэрс решил развернуть его вместо созданной своими силами системы иерархического управления хранением HSM (Hierarchical Storage Management).
Познакомиться с новым пакетом, который, по словам Пауэрса, отлично справляется со всем, что пользователи забросили в него за истекшие годы, недавно представилась возможность и представителям eWeek Labs.
DMF приближает данные к пользователям
Предлагаемое фирмой SGI решение DMF позволяет менеджерам ИТ создавать многоуровневые инфраструктуры хранения, в которых старые, реже используемые данные переносятся с дорогих дисковых массивов Fiber Channel на дешевые накопители на магнитных лентах. При такой схеме пользователи записывают информацию на сервер Linux или Irix, где та попадает в первичное хранилище. Установленная здесь система DMF постоянно следит за состоянием данных и на основании заданных администратором правил решает, когда и куда их перемещать. Ее, например, можно сконфигурировать так, что крупные файлы будут отправляться на однокатушечные накопители большой емкости, тогда как файлы малого размера - на быстрые двухкатушечные. Такой перенос информации производится практически не заметно для пользователя. Когда поступает запрос на архивированный файл, сервер DMF находит и восстанавливает его, что называется, "на лету". |
DMF был разработан фирмой Silicon Graphics для управления жизненным циклом данных и предназначен для работы в высокопроизводительных вычислительных средах. С его помощью менеджер ИТ может легко наращивать емкость хранилища, дополняя первичные ресурсы сравнительно недорогими накопителями - магнитными лентами и дешевыми дисковыми массивами наподобие Serial ATA RAID (см. врезку).
Переход на систему DMF, как подсчитал Пауэрс, обошелся в 5-10 раз дешевле, чем если бы он начал пополнять парк обычных дисковых массивов.
"SGI приступила к выпуску DMF примерно шесть лет назад, - сказал он. - Через полгода после этого мы уже тестировали решение, и полученные результаты однозначно показали: пора заменять свою HSM на новинку".
С тех пор нагрузка на отдел суперкомпьютеров еще больше возросла, и чтобы справиться с ней, пришлось устанавливать все новые и новые серверы. Однако, как показало прошедшее время, DMF отличается очень высокой масштабируемостью. "В октябре 1999 г. мы архивировали на системе SGI 160 Гб данных в сутки, - рассказывает Пауэрс, - теперь же каждый день хранилище пополняется на 1500 Гб".
Нагрузка на главный вычислительный центр NASA и его функции конечно же отличаются от того, с чем приходится иметь дело большинству организаций, тем не менее применяемая здесь технология управления жизненным циклом данных может сослужить хорошую службу не только исследовательским организациям, но и многим другим.
Масштабируемость, о которой говорит Пауэрс, и относительная экономия (по сравнению с расширением парка первичных дисковых хранилищ) - именно к этому стремятся очень многие менеджеры ИТ.
Суперкомпьютерный центр NASA (Моффитт-Филд, шт. Калифорния) разрабатывает распределенные разнородные вычислительные системы для американских космических проектов и программ. Кроме того, на него возложено проведение исследований, создание высокопроизводительных вычислительных сервисов и технологий, включая приложения и алгоритмы, инструментарий, системные программные и аппаратные средства. Причем делается это в интересах не только NASA, но и других заказчиков.
Услугами центра пользуются ученые из университета Глазго, Массачусетского технологического института, Стэнфордского университета, университета штата Теннесси. Из других клиентов достаточно назвать Главный центр совместных ресурсов министерства обороны США, компанию Boeing, корпорацию Lockheed Martin.
В общей сложности здесь обычно генерируется от 1 до 3 Тб данных в сутки. Чтобы справиться с такой нагрузкой, DMF автоматически и совершенно незаметно для пользователей переносит неактуальные данные (т. е. те, к которым в последнее время никто не обращался) из дорогих хранилищ Fibre Channel в сравнительно дешевые библиотеки на магнитных лентах.
Труднее всего Пауэрсу было так сконфигурировать DMF, чтобы та не создавала ни малейших помех работе специалистов. К счастью, по его словам, после переноса файлов на их месте остаются указатели, поэтому процесс перехода проходит совершенно прозрачно для пользователей.
Заложенные в DMF возможности заказной настройки кроме всего прочего позволили Пауэрсу и его сотрудникам легко оптимизировать проекты архивирования данных. "Одна из сильных сторон DMF в том, что вы можете конфигурировать систему, как только душе угодно, - отмечает он. - Заказная настройка здесь проводится легко и просто. Администратору ничего не стоит сегментировать пользователей и группы, а затем установить политику их обслуживания".
Опираясь на такие возможности, Пауэрс разработал и ввел в действие правила переноса данных, полностью отвечающие запросам клиентов. Файлы размером менее 1 Мб, скажем, DMF помещает в быстрые первичные хранилища, благодаря чему пользователи могут оперативно обращаться к таким источникам. В большинстве случаев на загрузку файла уходит меньше минуты, и такая задержка работе нисколько не мешает. Загрузки же больших файлов (свыше 1 Гб) можно дожидаться 5-10 мин, так как их приходится восстанавливать с магнитной ленты.
Как правило, никаких претензий к системе DMF сотрудники не высказывают. Пауэрс смог вспомнить лишь пару жалоб от тех, кто пытался загрузить слишком уж много файлов сразу. К тому же возникающие проблемы порой связаны с работой сети или устройств хранения.
В системе DMF суперкомпьютерного центра NASA используются хранилища на магнитной ленте STK 9310 корпорации StorageTek, оснащенные двумя разными типами накопителей. Небольшие файлы архивируются на двухкатушечных устройствах STK T9840A и T9840B, которые при сравнительно малой емкости (20 Гб на ленту) отличаются минимальным временем загрузки (4 с) и поиска (8 с). Первое из них пересылает данные со скоростью 10 Мб, а второе - 19 Мб. В результате пользователям не приходится подолгу ждать доступа.
Крупные файлы направляются на накопители STK T9940B емкостью 200 Гб и скоростью передачи данных 30 Мб/с. Правда, повышение этих показателей привело к более длительному времени загрузки (в среднем 18 с) и поиска (41 с).
Сочетая эти две технологии хранения данных на магнитной ленте, Пауэрс смог создать гибкие архивы, которые хорошо подходят для файлов любых размеров.
Со старшим аналитиком Генри Балтазаром можно связаться по адресу: henry-baltazar@ziffdavis.com.