Благоденствие нашей нефтяной державы немыслимо без геологоразведки. О роли ИТ в этой области, о текущих и перспективных задачах автоматизации рассказывает главный инженер ООО НПП «Спецгеофизика» Андрей Соловьев.
PC Week: Каков бизнес вашей компании и какая роль в нем принадлежит ИТ?
Андрей Соловьев: Наша компания оказывает услуги по геологоразведке месторождений углеводородного сырья: нефть, газ и газовый конденсат. Планируем заниматься и другими направлениями, тоже связанными с геологическими изысканиями: инженерная геология, инженерные изыскательные работы, которые обычно предшествуют строительству любых объектов, особенно крупных. Но пока основное направление у нас — геологоразведка, т. е. поиск месторождений. Причем мы можем выполнять весь цикл работ, начиная от планирования и заканчивая подсчетом запасов.
Основной инструмент, используемый сейчас геологами в этой области, — сейсморазведка. При этом с помощью того или иного способа на поверхности возбуждаются упругие колебания, которые распространяются в глубь земной толщи. На границах горизонтов скорость распространения волн разная, происходит частичное отражение, точно так же как в оптике, и часть энергии этих упругих колебаний возвращается на поверхность, где установлены сейсмоприемники, или геофоны, которые эти волны ловят, фиксируют время их прихода, амплитуду и ряд других характеристик.
Основываясь на этом, используя специальные алгоритмы обработки, можно сделать трехмерную модель того, что находится в глубине. А дальше интерпретаторы и геологи, анализируя характеристики сигнала, привлекая другие данные, могут уточнить, что там на самом деле. И предложить нефтяным компаниям, где можно заложить разведочные скважины. После чего исследовать непосредственно так называемый керн (извлекаемую из скважины породу), на предмет нефте- и газонасыщенности. Чтобы рассчитать, какие там могут быть запасы нефти и какая часть из них — извлекаемая.
Количество сейсмоприемников исчисляется тысячами, а то и десятками тысяч, поэтому те объемы данных, которыми мы оперируем, сопоставимы с объемами в гидродинамике, в моделировании ядерных взрывов. Средний наш объект — это десятки терабайт информации.
Другой момент — объём вычислений. Потому что, например, для той же фильтрации сейсмоданных, которая использует быстрое преобразование Фурье, необходимы миллиарды вычислений на обрабатываемую единицу. Алгоритмы обработки исходных данных, позволяющие получить лучшую четкость изображения, требуют и большого объема оперативной памяти для работы, и дисков большой емкости. Обычно для такой обработки нужны суперкомпьютеры.
PC Week: У вас есть достаточные собственные мощности?
А. С.: Лет пять назад тех вычислительных мощностей, которыми мы обладаем на сегодняшний момент, было бы вполне достаточно для наших целей. Но объем данных растет каждый год, прежде всего потому, что увеличивается детальность исследования. Если раньше нормальным считалась пара сотен сейсмоприемников, потом обычным, типовым стало иметь тысячу таких приборов, то сейчас сейсморазведка высокого разрешения требует порядка 10 тыс. приемников.
Кроме того, постоянно появляются всё более и более эффективные процедуры, с точки зрения геологического результата дающие более адекватную картину. Ну а эта эффективность влечет за собой необходимость в больших вычислительных ресурсах, более сложных алгоритмах.
Сейчас наш вычислительный центр обладает суммарной вычислительной мощностью порядка 2,5 Тфлопс. Пять лет назад это считалось нижней границей суперкомпьютеров, а сейчас даже близко не подходит к данному уровню, потому что масштаб производительности суперкомпьютеров поднялся и нижняя граница стала примерно на порядок выше.
Например, машина Fujitsu Primergy CX600 позволяет на двух юнитах создать узел с вычислительной мощностью в 20 Тфлопс. И стоит она более адекватно по сравнению с тем, что было несколько лет назад. Эти два юнита заменяют три стандартных шкафа с кластером на 100 узлов. Соотношение стоимость/производительность и себестоимость единицы вычислений упали довольно сильно — после появления последних разработок Intel, после активного внедрения графических ускорителей Nvidia и AMD. Поэтому сейчас вполне реально развернуть в небольшом помещении суперкомпьютер на несколько десятков терафлопс.
PC Week: Вы пошли по этому пути — по пути апгрейда собственной системы?
А. С.: Нет, делать апгрейд мы не стали. Ситуация на нашем рынке высококонкурентная. Портфель заказов изменчив: можно выиграть конкурс, а можно и не выиграть. Соответственно плавает и загрузка мощностей. Для базового набора процедур нам своих мощностей вполне хватает. А для процедур тяжелых, требующих привлечения больших вычислительных мощностей, мы просто берем кластеры в аренду.
PC Week: Как обычно организован такой аутсорсинг?
А. С.: Есть два варианта. Один — это кластер с общими ресурсами, т. е. когда на одном кластере считаются задачи разных заказчиков. Понятно, что в этом случае нам никто не гарантирует, что в нужный момент будет необходимое количество свободных вычислительных ядер, оперативной и дисковой памяти. Поэтому есть и другой вариант, он подороже, конечно, но зато нам гарантированно выделяется, предположим, 400 ядер и 100 Тб дисковой памяти. И мы решаем, что и когда запускать. Если мне нужны дополнительные ресурсы, я просто звоню своем менеджеру у провайдера. Это совершенно не облачный подход.
PC Week: Какие еще есть варианты, чтобы получить нужные ресурсы?
А. С.: Еще один способ — создание совместных вычислительных центров с другими компаниями. Это могут быть партнеры, а может быть клиент, который заинтересован в стабильном выполнении своих заданий.
Партнером может выступить компания, которая выполняет схожие задачи, но, предположим, на непересекающихся рынках. Ведь есть сухопутная сейсморазведка, морская, сейсморазведка в так называемых транзитных зонах с переходом суша — море, есть донная сейсморазведка, есть сейсморазведка методом преломленных волн. Везде свои особенности.
Мы работаем над созданием такого совместного ВЦ, детали я раскрывать не могу, но в этом году планируем выйти уже на финальную стадию проекта.
PC Week: Каким образом вы собираете и обрабатываете данные на местах?
А. С.: Данные собираются как правило в труднодоступных точках. Часть обработки идет прямо на месте, промежуточные итоги бывают ясны уже по ходу исследований. Раньше вначале собирались все данные и лишь через несколько месяцев массив передавался на обработку в стационарный центр. Теперь же тенденция к тому, чтобы всё больший и больший объем самой обработки переносился в поле. Это выгодней, потому что сразу можно вносить коррективы в технологию измерений.
К тому же специфика обработки данных сейсморазведки такова, что мы можем отрабатывать их частями. Нам не надо иметь сразу весь объем для работы. Съемка занимает какое-то время, обычно несколько месяцев. Каждый день отстреливается определенное количество так называемых пикетов, и определенный объем данных уже можно отправлять в обрабатывающую систему.
Предобработка на месте дает еще и то преимущество, что материал приходит в стационарный ВЦ не сырой, а готовый к более углубленной обработке. То есть мы экономим время. Причем порой эта экономия достигает довольно значительных величин: два, три, пять месяцев в зависимости от размера объекта. Таким образом особенности работы диктуют совершенно другую ИТ-конфигурацию, чем традиционная для большинства компаний в нашей сфере.
Дело идет к тому, что вся обработка, в том числе самые ресурсоемкие ее виды, будет проводиться непосредственно в поле. И это позволит примерно вдвое сократить время, затрачиваемое на весь цикл работ.
PC Week: Видимо, вам требуется серьезное мобильное оборудование.
А. С.: Да. Первое время мы возили с собой довольно тяжелые рабочие станции Sun Microsystems. Они обеспечивали стабильность, надежность работы, но имели недостатки. Большой вес, соответственно высокие энергопотребление и затраты на транспортировку. Их вычислительных мощности лет двадцать назад было достаточно, а спустя десятилетие стало не хватать. Еще они требовали от геофизиков владения инструментами не под Windows и даже не Linux, а Sun Solaris, похожей скорее на древний UNIX.
И мы решили вместо этих станций попробовать обычный персональный компьютер. Тем более, что к тому моменту уже появились обрабатывающие комплексы под Linux для архитектуры x86. Компьютер работал быстрее, это отметили сразу. Но у нас загрузка процессора 100%-ная, причём круглосуточно! Выяснилось, что обычные настольные ПК в таких условиях быстро перегреваются. Приходилось в сорокаградусный мороз открывать форточки, чтобы остудить систему. А спустя какое-то время появились достаточно мощные настольные рабочие станции на базе серверных процессоров. Теперь это наш основной рабочий инструмент.
PC Week: Вы сказали о вычислительных Linux-комплексах. Какие дистрибутивы вы используете? Какие вообще Open Source-продукты применяете? Удается ли отказаться от Windows?
А. С.: Начинали мы с Linux от Red Hat, но поскольку это сейчас коммерческий продукт, мы переключились на CentOS. И прошли всю эту линейку начиная с четвертой версии. Сейчас у нас рабочая среда CentOS 6. И уже посматриваем в сторону «семерки».
Плюс к тому мы используем Open Source-продукты вспомогательного уровня и прикладные. Например, на переносных машинах под Linux в качестве замены Microsoft Office применяем OpenOffice, LibreOffice. Часть наших работников работает под Windows, там уже стоит Microsoft Office. Хотя можно было бы и туда поставить OpenOffice, но у этого пакета, к сожалению, есть проблема неполной совместимости.
Кроме того, часть геофизического софта работает только под Windows, и нам волей-неволей приходится поддерживать эту ОС. То есть наша сеть на самом деле гибридная, мультиплатформенная. Серверы работают в основном под Linux, но есть и работающие под Sun Solaris.
PC Week: Как вы организуете хранение данных?
А. С.: Проблема номер один — объем. Сейчас отправлять в поле машину, у которой меньше 10 Тб на борту, смысла нет. Потому что просто не поместятся данные. И мы используем два подхода. Во-первых, встраиваем в машину RAID-массив — четыре диска по 4 Тб, RAID 5, и при этом получаем примерно 11 Тб дисковой памяти. Во-вторых, используем подключаемые внешние диски.
Твердотельные накопители могли бы дать выгоду по производительности. Однако емкость их ниже, стоимость выше, так что пока ориентируемся на RAID, построенные на традиционных дисках SATA. Для центра стационарной обработки начинаем использовать гибридные системы, где есть и жесткие диски, и SSD, но какой достигается эффект, сказать ещё не могу.
Проблема номер два — архив. Хранить данные нам нужно на нескольких уровнях. Надо хранить исходные данные, которые привозят с поля. Надо хранить базу данных с параметрами обработки для получения окончательного результата. И надо хранить сам окончательный результат, если того требует заказчик. Общий объем хранения у нас — около половины петабайта. Также в нашей стране есть Федеральный геологический архив — Росгеофонд, в который все нефтяные и газовые, вообще любые компании, занимающиеся разведкой и разработкой месторождений полезных ископаемых, обязаны сдавать результаты своих геологических исследований.
PC Week: Спасибо за беседу.