БИОТЕХНОЛОГИИ
Раскрыть тайны ДНК помогают программы кластеризации
Цепочка ДНК всего Человеческого генома была полностью раскрыта в апреле, но работа на этом не прекратилась. Огромные массивы полученных данных нужно сделать легко доступными и защищенными - этим сейчас занимается целый ряд научных заведений, включая Центр изучения генома на медицинском факультете Университета Джорджа Вашингтона в Сент-Луисе.
Центр был основан в 1993 г. по гранту Национального исследовательского института человеческого генома при Американском институте здравоохранения. Именно здесь получена примерно четвертая часть всей систематизированной информации о геноме человека. Однако при выполнении этой работы центр столкнулся с серьезной проблемой, столь обычной сегодня для всех крупных научных проектов и большинства коммерческих компаний. Имя ей - взрывоподобный рост объемов данных. Если в самом начале емкость хранилища информации в центре была в пределах гигабайта, то за последние несколько лет она выросла до 8 Тб.
Карпентер: "Центру нужна среда,
постоянно готовая к работе"
А ведь для продолжения работ, как постоянно подчеркивает руководство Центра, необходимо обеспечить высокую доступность данных. Недопустимы и потери информации, на получение которой было затрачено так много средств. Да и вычислительные ресурсы, задействованные на расшифровку ДНК, потребовали больших капиталовложений.
В денежном выражении, как подсчитал главный инженер Центра изучения генома Келли Карпентер, отображение каждого элемента ДНК, включая начальные технические затраты и последующие инвестиции, обошлось в 200 тыс. долл. "Взгляните на любую папку с файлами и подумайте, что ее содержимое стоит две сотни тысяч долларов, - говорит Карпентер. - Если она исчезнет, вы сразу же теряете двести тысяч".
Чтобы защитить свои папки шестизначной стоимости, центр решил воспользоваться системой Oracle9i RAC (Real Application Clusters) корпорации Oracle с гетерогенной файловой системой Advanced Cluster Database Edition компании Veritas Software. Этот программный пакет заложил фундамент для среды Oracle RAC, которая работает под управлением Solaris или HP-UX. Он же стал центральным звеном новой сети хранения на базе Fibre Channel, развернутой на машинах с операционными системами Solaris и Linux.
Если физический сервер отключается, клиент автоматически повторяет запрос. |
Выбор в пользу этих технологий Карпентер объясняет необходимостью создать среду с высоким коэффициентом готовности, которая позволит исследовательскому центру снизить расходы, повысить производительность труда, сократить затраты на управление и при этом сохранить полный контроль над быстрым ростом данных, связанных с отображением генов.
На сегодняшний день в Центре изучения генома уже развернута система из двух четырехпроцессорных серверов Sun Fire V880 фирмы Sun Microsystems и производится перенос на нее данных с прежнего кластера из двух серверов Sun E3500.
Ранее здесь использовалась платформа Oracle HA Cluster с высоким коэффициентом доступности. Один из ее серверов обслуживал базу данных Oracle9i, а второй в нормальном режиме бездействовал, готовясь принять на себя нагрузку в случае выхода из строя основной машины. Такая конфигурация, по словам Карпентера, была слишком дорогой, поскольку половина серверных ресурсов почти все время пропадала впустую. К тому же кластер Oracle HA был очень сложным в настройке и администрировании, что также повышало совокупную стоимость владения.
В дополнение ко всему функции отказоустойчивости Oracle RAC с программой кластеризации Veritas оказались намного эффективнее, чем у Oracle HA. Раньше в том случае, если запрос не выполнялся из-за отключения машины с базой данных, исследователям приходилось дожидаться, пока подключится резервный сервер, а на это, как вспоминает Карпентер, уходило несколько минут. После перехода на RAC такое переключение, по его словам, выполняется почти мгновенно.
"Для клиента это просто здорово, - считает он. - Когда выполняется запрос с какого-нибудь графического интерфейса, а физический сервер отключается, клиент сразу обнаруживает это и автоматически, без малейшей задержки повторяет запрос с самого начала. Пауза зависит от того, как долго должен обрабатываться запрос. Если на это уходит несколько секунд, сбой, может быть, и будет заметен, но пока пользователь соберется узнать, не вышел ли из строя сервер, система уже получит ответ".
Защита и восстановление 285 млн. скопившихся в центре изучения генома файлов возложены на пакет Veritas NetBackup, дополненный приложениями FlashBackup и Shared Storage. После перехода на новый кластер, состоявшегося в июне нынешнего года, FlashBackup ускорила процесс резервного копирования в шесть раз. Операция, на которую раньше уходили сутки, теперь выполняется всего за четыре часа. К тому же и размер каталога снизился со 150 до 30 Гб.
Все это очень ценно, но главным достоинством Veritas Advanced Cluster Карпентер все же считает простоту работы с управляемым им кластером Oracle RAC. Графический пользовательский интерфейс этого пакета позволяет администратору базы данных легко переключать серверы без перехода в режим командной строки. Ему больше не приходится вводить большие группы команд, а это, как подчеркивает Карпентер, делает общую стоимость владения еще ниже.