«Хранить вечно» — именно это требование до сих пор многими на ИТ-рынке (и еще больше — теми, кто не очень близко знаком с ИТ) воспринимается как ключевой довод против решительного перехода на электронные документы. «Да, электронные документы доказали свои очевидные преимущества в оперативной работе с информацией, жизненный цикл которой составляет несколько лет, — говорят они. — Но как может быть обеспечено долгосрочное, а тем более вечное хранение документов при том, что ИТ-средства радикально меняются каждое десятилетие? То ли дело бумага, доказавшая свои возможности за столетия применения».
В ответ на эти возражения есть неоспоримые теоретические аргументы, свидетельствующие, что электронно-цифровые технологии — надежнее и долговечнее. Но помимо теории уже накоплен и реальный опыт перехода на электронное хранение документов, в том числе и в России. Например, во Всероссийском научно-исследовательском институте гидрометеорологической информации (ВНИИГМИ-МЦД), который является не только ведущей профильной организацией в нашей стране, но и одним из трех мировых центров данных (МЦД). Об опыте «вечного хранения» информации, имеющей мировую значимость, обозревателю PC Week/RE Андрею Колесову рассказал заместитель директора института Сергей Сивачок.
PC Week: Расскажите немного об истории института — какова сфера его деятельности? Почему он находится именно в подмосковном Обнинске?
Сергей Сивачок: О важности гидрометеорологической [далее ГМ] информации я говорить не буду — данная тема представляется очевидной. При этом нужно понимать, что собираемые сейчас сведения нужны будут нашим потомкам не меньше, чем нам с вами сегодня. Целенаправленная служба сбора такой информации стала формироваться в мире, включая и нашу страну, во второй половине
К началу
Почему в Обнинске? В начале
PC Week: А как проходила эволюция хранения данных, как шел переход «от
С. С.: Все первичные материалы формировались и во многом продолжают формироваться в традиционном виде записей наблюдений в бумажных журналах. В изначально цифровом виде сегодня получаются данные со спутников, по объемам это очень большие массивы, но если посмотреть с точки зрения содержательной ценности, то главной все же является информация с наземных точек наблюдения.
Раньше все эти данные примерно так же и хранились — на бумаге. Но в начале
Так вот, в
А полноценный и огромный эффект от «цифры» пришел с появлением «электроники» — сначала это были магнитные ленты, потом магнитные диски, а затем и другие технологические новшества. Вот тут уже был совершен качественный переход именно в плане хранения (по сокращению объемов и повышению надежности, а в итоге — по снижению затрат).
PC Week: Еще несколько лет назад я слышал высказывания российских архивистов, которые утверждали, что перфокарты надежнее магнитных лент и даже дисков.
С. С.: Скорее всего это говорили люди, которые никогда не работали с перфокартами. Я даже не вижу тут предмета для спора. Магнитные и электронные носители дают повышение характеристик не в разы, а на порядки, на много порядков.
Так вот — только к середине
И уже в нынешнем столетии начался новый этап развития всего этого направления, который характеризуется несколькими аспектами: замена магнитных лент на дисковые массивы, применение программных систем для комплексного управления архивами, перевод бумажных архивов в электронный формат. Вопрос о переходе с магнитных лент фактически встал еще двадцать лет назад, но воплощению предложений той поры помешал кризис
PC Week: Как обеспечивается надежность хранения резервных копий данных?
C. C.: Основной, исходный архив данных хранится в виде бумажных документов, он представлен в двух копиях, одна из которых находится у нас, а другая — в региональных центрах страны. Все электронные данные размещены у нас в двух копиях, которые физически разнесены по разным зданиям. Да, обсуждался вариант разнесения архивов на расстояния в тысячи километров, но он все же для нас слишком дорогостоящий.
PC Week: То есть у вас нет данных, которые хранятся только в электронном виде? Электронный архив — это лишь копия бумажных подлинников? В таком случае как часть «бумаги» имеет электронную копию?
C. C.: Да, вся информация находится в бумажном виде, в электронном только копии, причем, конечно, не всех данных. Нужно иметь в виду, что за исключением спутниковой информации все сведения о наблюдениях поступают к нам в виде бумажных документов, формируемых на местах проведения наблюдений. Сегодня имеются автоматические метеостанции, которые сразу пишут данные в электронном виде, но должен сказать, что качество этих данных вызывает определенные сомнения. В региональных центрах информация с бумаги вручную преобразуется в электронные файлы, а те уже передаются нам на хранение.
Еще один важный момент: в электронный архив информация попадает не в исходном виде, а только после обработки. Сначала она обрабатывается нашими специальными программами на предмет выявления ошибок — в основном статистическими методами вылавливаются малореальные «выбросы» в данных. Но программы не удаляют такие значения, а лишь обращают на них внимание специалистов, которые проводят дополнительный анализ данных и принимают решение, что делать с этими сведениями. Чаще всего речь идет об ошибках операторов при вводе.
PC Week: А вы используете средства автоматизированной оцифровки — сканирование и распознавание текстов?
С. С.: Мы давно присматриваемся к этим технологиям, общаемся с разработчиками, но пока получается, что ручной ввод — дешевле и надежнее.
PC Week: Одна из проблем хранения электронных данных — поддержка унаследованных форматов. Как вы ее решаете — переводите ли информацию из старых форматов в новые или применяете программы, которые могут работать со всеми форматами?
C. C.: Да, это актуальная тема. Действительно, первые электронные данные появились еще во времена ЭВМ типа «Минск», возможности тогдашних машин были очень ограничены, приходилось максимально ужимать данные, бороться за каждый двоичный разряд, придумывать изощренные форматы файлов. Пока мы храним унаследованные данные в форматах той поры и используем простые программы-конверторы. Пользователь работает через единый интерфейс, не имея понятия о том, в каком именно виде хранится информация.
PC Week: Мы подошли к важному вопросу: хранение информации — не самоцель, информация нужна ровно в той мере, в какой ею смогут воспользоваться люди. Как выглядит работа людей с архивными данными?
C. C.: Архивы решают две взаимосвязанные, но все же разные задачи. Первая — это долгосрочное хранение информации для будущих поколений. Мы не знаем, как они будут пользоваться этими данными, с помощью каких технологий и средств, но должны сделать так, чтобы у наших потомков была возможность работать с собранной их предшественниками информацией. И вторая задача — использование хранимой информации, в том числе унаследованной от наших предков, сегодня, здесь и сейчас.
Раньше мы регулярно выпускали ежегодные печатные сборники с данными по всем наблюдательным станциям страны. Мы продолжаем это делать и сейчас, но теперь эти сведения публикуются и на нашем сайте Meteo.ru в табличном виде в бесплатном доступе. Кроме того, есть внутренняя система расширенного доступа к архивным данным от гидрометеорологических организаций для специалистов-метеорологов, где доступ, в том числе удаленный, осуществляется через пароль.
PC Week: А в каком виде у вас хранятся унаследованные данные? Все ли бумажные документы отсканированы в формат электронных образов?
С. С.: Эта работа ведется, но до ее завершения еще далеко. В электронный вид преобразовано, наверное,
PC Week: Вначале вы сказали, что ВНИИГМИ-МЦД является одним из трех международных центров данных. Как институт справляется с этими обязанностями? Как можно оценить состояние дел у нас по сравнению с зарубежными коллегами?
C. C.: В научно-методическом плане мы работаем вполне на мировом уровне, мы постоянно общаемся со специалистами других стран, в том числе США, есть некоторые совместные работы. В плане технологическом после внедрения несколько лет назад новой ИТ-системы также вышли на современный уровень, но по масштабам, по объемам данных все же отстаем. Мы изучали опыт работы аналогичного американского центра: у них в 2007 г. были объемы архива, которые у нас есть сегодня. Вообще замышлялись три мировых центра, в том числе как места хранения копий мирового архива данных. Такая идея пока в полной мере, конечно, не реализована.
PC Week: Наверняка проблем в развитии вашего института немало. Но какие из них видятся вам наиболее актуальными, срочными сейчас?
C. C.: В первую очередь я бы выделил вопрос кадров: молодежь не жаждет идти к нам, мы не можем им предложить зарплату, которую они могут получать в других местах. А в целом, конечно, основная проблема — недостаток финансирования. Мы сейчас работаем на ИТ-средствах шести-семилетней давности, еще несколько лет назад был поднят вопрос об их обновлении и модернизации. Обсуждались также разные варианты использования схем аутсорсинга, но эти идеи тоже пришлось оставить до лучших времен. Пока вынуждены работать только в режиме эксплуатации того, что есть.
PC Week: Спасибо за беседу.