Десять лет назад взял старт амбициозный проект под названием Internet Archive, призванный сохранить в едином архиве все Web-страницы Интернета вместе с самыми разнообразными видами цифрового контента. За прошедшее с тех пор время здесь скопилось 4 Пб данных (включая 1,6 Пб первичных), для хранения которых используется стандартное модульное оборудование и программное обеспечение с открытыми кодами. Стратегия этой организации в области хранения огромных массивов информации и управления ими может послужить отличным примером для любой компании, стремящейся удержать под контролем быстро растущую информационную нагрузку.
К многотерабайтным вычислительным центрам мы уже постепенно привыкаем, однако петабайтное хранилище данных на сегодняшний день - все еще экзотика. Познакомиться с тем, как Internet Archive справляется с накопленной информацией невероятного размера, eWeek Labs решил прямо на месте - в Сан-Франциско, где размещена эта цифровая библиотека. Отметим, кстати, что мы оказались в совершенно новом вычислительном центре, куда организация только-только закончила переводить данные из своих прежних офисов в районе Presidio. Точнее говоря, последние серверные стойки были развернуты на новом месте всего за пару недель до нашего приезда.
Успех Internet Archive во многом объясняется подходом менеджеров ИТ к проблеме хранения огромных информационных массивов - так считает цифровой библиотекарь и основатель Internet Archive Брюстер Кале: "Когда имеешь дело с петабайтными масштабами, на первый план выходит вопрос: как сделать это море информации постоянно доступным для внешнего мира? На практике эта проблема делится на две: как сохранить такой массив и как обеспечить его целостность. Целостность и доступность - вот что лежит в основе нашей деятельности"*1.
_____
*1 Интервью с Брюстером Кале читайте на с. 45
Internet Archive была основана в 1996 г. как некоммерческая организация, имеющая своей целью создание онлайновой библиотеки из копий Web-узлов. Сегодня здесь хранится электронная информация во всех своих видах, включая текст, аудио и видео, не говоря уж об архивированных страницах Всемирной паутины. Эта коллекция доступна на сайте www.archive.org и постоянно пополняется.
На первом этапе проект развивался на средства Кале, которые он получил после продажи фирме America Online своей компании WAIS (Wide Area Information Servers). Теперь же деятельность организации финансируется за счет частных фондов, правительственных грантов и добровольных корпоративных взносов.
Все начиналось с библиотеки на магнитных лентах TimberWolf 9710 фирмы StorageTek, которая в сочетании с накопителями Quantum DLT700 обеспечивала хранение до 70 Гб данных (напомним, что StorageTek в 2005 г. перешла в руки Sun Microsystems). Вот только магнитным лентам при всей их дешевизне присущ серьезнейший недостаток - они не обеспечивают нужной скорости доступа.
Вице-президент Internet Archive
Джон Бери у стоек с серверами
PetaBox, которые были разработаны
его организацией для хранения
и обслуживания данных
В 2000 г. информационные менеджеры Internet Archive решили перенести библиотеку с ленточных накопителей StorageTek на настольные системы компании Hewlett-Packard. Для размещения этих машин, каждая из которых оснащалась четырьмя 160-Гб жесткими дисками, использовались стандартные хлебопекарные стеллажи фирмы Costco Wholesale.
Но цифровая библиотека быстро разрасталась, и сотрудникам Internet Archive пришлось искать более экономичные способы хранения данных. В 2004-м они самостоятельно разработали хранилище под названием PetaBox на базе стандартных компонентов и ПО с открытыми кодами. Одной из отличительных черт новинки стало и пониженное энергопотребление. Технология оказалась настолько удачной, что Кале решил наладить производство и продажу подобных систем, специально для чего была создана дочерняя фирма Capricorn Technologies.
Сегодня в вычислительном центре Internet Archive развернуто около 2000 систем PetaBox, которые, постоянно просматривая Всемирную паутину, записывают на свои жесткие диски найденные Web-страницы и другой цифровой контент. Оборудование размещено в 50 стойках по 40 серверов PetaBox в каждой. Системы смонтированы в корпусе высотой 1U (1,75 дюйма или 4,45 см толщиной) и в большинстве своем оснащены двухъядерными процессорами Opteron фирмы Advanced Micro Devices (в первых моделях серверов PetaBox устанавливались сверхнизковольтовые процессоры фирмы Via Technologies).
По оценке Кале, такой подход выгодно отличается от других невысокой стоимостью, что очень важно для некоммерческих организаций: "Мы просто добавляем по мере необходимости новые блоки, которые используем в самых разных целях. Поскольку мы коммерцией не занимаемся, самые большие расходы у нас связаны с созданием вычислительного центра - его администрированием и электроснабжением. На эти аспекты нам приходится обращать особое внимание".
Каждая из развернутых систем PetaBox оснащена четырьмя жесткими дисками фирмы Seagate емкостью по 750 Гб с перпендикулярной записью, что позволяет хранить на одной серверной стойке до 120 Тб данных. Как рассказал нам вице-президент Internet Archive Джон Бери, курирующий работу всей системы, в вычислительном центре появляется примерно по одной новой стойке в месяц. И такое расширение, надеется он, будет продолжаться очень долго.
Возможность сбоев
Когда в вычислительном центре постоянно вращается 8-9 тыс. дисков, поневоле приходится думать о вероятности их отказа. Это подтверждает опыт Internet Archive, где ежегодно из строя выходит 2-3% жестких дисков. Возможность их "горячей" замены в системе PetaBox не предусмотрена, поэтому каждый раз для установки нового диска приходится выключать сервер и извлекать его из стойки. Впрочем, Кале считает это вполне приемлемым для среды Internet Archive, так как данные здесь обновляются несравненно реже, чем в корпоративных системах непрерывного действия.
Деятельностью интернет-хранилища управляют три штатных системных администратора, а помогает им в этом приложение Nagios - корпоративный программный пакет сетевого мониторинга, созданный на базе открытых кодов. Он постоянно следит за состоянием 16 тыс. контрольных точек на 800 машинах, которые входят в первичный кластер Internet Archive.
Впрочем, Nagios - не единственное ПО с открытыми кодами в арсенале интернет-архива. Системы PetaBox, скажем, работают под управлением операционной Linux-системы Ubuntu фирмы Canonical. Используются на этих машинах и два других приложения такого типа: PetaBox Catalog управляет тысячами задач по всему кластеру, балансирует нагрузку на машины и следит за ходом работы, а пульт управления PetaBox Control Panel позволяет администраторам через Интернет изменять конфигурацию и вносить изменения на уровне всего кластера, отдельного процессора, узла и дискового раздела.
Защитить и предоставить
Для защиты данных специалисты Internet Archive сначала пытались использовать дисковые массивы с RAID 5, однако такое решение оказалось недостаточно масштабируемым. В результате предпочтение было отдано конфигурации JBOD (Just a Bunch Of Disks - простая группа дисков, т. е. без использования RAID). Все машины архива разделены на пары, благодаря чему данные здесь дублируются в параллельно работающих хранилищах. А для большей надежности их копии хранятся и в других местах, включая вычислительный центр в Амстердаме (Нидерланды) и Александрийскую библиотеку Египта.
"Пожар в древней Александрийской библиотеке преподал всему миру серьезный урок: одной-единственной копии слишком мало, - говорит Кале. - Смысл интернет-архива в том, чтобы сберечь плоды сегодняшнего труда. А для этого есть только один путь - хранить несколько копий в разных местах планеты, а затем синхронизировать их через Интернет".
PetaBox Catalog управляет тысячами задач, выполняемых по всему кластеру, балансирует
нагрузку и следит за ходом работы
Именно так и поступает Internet Archive, где все вычислительные кластеры поддерживают между собой связь через Всемирную сеть. Обмен метаданными здесь ведется по протоколу OAI (Open Archives Initiative), а для групповой пересылки файлов применяются HTTP и FTP.
Internet Archive архивирует, обслуживает и сохраняет для потомства невероятно огромные массивы информации, и в таких условиях, как считает Кале, путь к успеху пролегает через простоту системы. "Мы не делаем ничего такого, что могло бы озадачить студента с Linux-компьютером в комнате общежития, - сказал он. - Секретные "соусы" вызывают у меня аллергию. Главное для нас - это стандартизация и простота".