Электронные документы — это основа цифровой экономики, к которой сейчас так стремится наша страна. Однако активное использование электронных документов в системе государственного управления и в бизнесе, а также расширение сферы их использования требует серьезного нормативно-правового регулирования. И если регулированию непосредственно в области СЭД в России внимание уделяется, то вопросы архивного хранения электронных документов во многом остаются не охваченными. И одна из важнейших проблем — долговременное хранение баз данных, в том числе — выбор единого стандарта. ЭОС, российский разработчик ECM-решений, решила самостоятельно изучить перспективный международный опыт в этом направлении. Специалисты ЭОС протестировали программное обеспечение SIARD SUITE. В решение SIARD входит открытый архивный формат SIARD и ПО SIARD SUITE для перевода баз данных в этот формат.
Расширение сферы применения электронных документов неизбежно приводит к тому, что перед организациями встает вопрос о том, как надлежащим образом их хранить. И задача это нетривиальная, так как должна учитывать многие факторы. Прежде всего, электронные документы — в отличие от бумажных — хранятся на специальных физических носителях и интерпретируются аппаратно-программной средой.
Беда только в том, что и сами носители, и среда обработки физически и морально устаревают в течение
При этом электронные документы нужно хранить максимально долго, так как они представляют ценность и для бизнеса, и для государства, и — зачастую — для истории. Именно поэтому вопросы долговременного хранения БД чрезвычайно важны и их нужно решать максимально быстро, пока не началось «лоскутное» архивирование. Последнее вполне возможно, если ведомства и отдельные организации будут создавать и использовать разные стандарты хранения.
Заметим, что бизнес уже берет инициативу в свои руки, основываясь на концепции data base preservation. Она предусматривает конвертацию хранимой в базе данных информации в формат, доступный независимо от долговременных технологических изменений, практически без потери начальных характеристик. Речь, правда, идет не о создании стандарта с нуля для отдельного организации, а об использовании европейского опыта и в частности — признанного формата хранения баз данных, который вкупе с регулярной миграцией позволит решить проблемы устаревания носителей и среды обработки.
Обращение к европейскому опыту вполне логично по двум причинам. Первая банальна, но целесообразна — лучше обходить грабли, на которые кто-то уже наступил. Пусть в Европе пока нет единого решения проблемы, но опыт уже накоплен, и стоит его использовать. Вторая причина более приземленная: Европа близко, и обмениваться данными из архивов вполне может потребоваться, так что будет лучше изначально учитывать возможность интеграции.
Компания ЭОС проанализировала европейский опыт архивирования электронных данных и выделила два архивных формата — SIARD и CHRONOS.
Формат SIARD (аббревиатура от Software Independent Archiving of Relational Databases — программно-независимое архивирование реляционных баз данных) и поддерживающее работу с ним программное обеспечение SIARD SUITE были разработаны Федеральным архивом Швейцарии (Schweizerische Bundesarchiv, BAR) и продолжают развиваться независимо друг от друга. С 2015 года данный формат является официальным архивным форматом для передачи и хранения баз данных документов госорганов в Федеральный архив Швейцарии. В настоящее время в Швейцарии все базы данных передаются на архивное хранение в Федеральный архив в формате SIARD.
CHRONOS — это коммерческое решение компании CSP (Германия), созданное при поддержке правительства Баварии и популярное в коммерческом сегменте. По характеристикам они схожи, но первое решение является открытым, ПО SIARD SUITE для перевода реляционной БД в формат SIARD можно скачать в Интернете, поэтому тестировать ЭОС решил именно SIARD.
«После того, как структура и контент БД будут конвертированы в формат SIARD, в будущем будет возможно получить доступ к контенту и метаданным в любое время, даже если оригинальное ПО БД более не будет доступно или перестанет использоваться. Кроме того, это универсальный способ передачи больших объемов данных в архивы или другие организации. Таким образом, SIARD может являться средством организации промежуточного архивирования больших объемов данных», — рассказала Наталья Мошкова, руководитель проектов компании ЭОС.
Кроме открытости и наличия свободно распространяемого ПО, формат SIARD обладает еще целым рядом преимуществ. Он позволяет осуществлять выгрузку не только метаданных, но и собственно содержимого базы данных в архив, сам формат независим от исходного программного обеспечения, а выгруженные данные хранятся как один документ — ZIP-архив. Данные хранятся в ХML-файлах, а текстовые или двоичные объекты (BLOB, CLOB) — в отдельных файлах, на которые есть ссылки в ХML-файлах. В стандартный функционал ПО SUIARD SUITE входят команды выгрузки-загрузки БД в доступные программе СУБД.
В настоящее время SIARD позволяет архивировать БД с такими типами систем управления баз данных, как Oracle, Microsoft Server SQL, MySQL, DB/2, Microsoft Access. «Список доступных СУБД для данной программы может быть расширен за счет доработки других вариантов СУБД, например, российских. Формат является открытым и это безусловно одно из его преимуществ», — подчеркнула Наталья Мошкова.
В рамках тестирования формата компанией ЭОС была выгружена из СЭД «ДЕЛО» база данных с СУБД SQL с документами. Затем база данных была подготовлена к архивированию в формат SIARD, а позднее и к выгрузке из него. Также был осуществлен перевод этой базы данных с документами в формат SIARD. При этом было протестировано два варианта архивирования данных, доступных в SIARD SUITE. Первый предусматривал архивирование только метаданных, а второй — как метаданных, так и самих данных.
В процессе тестирования были проверены все основные функции ПО SIARD Suite, в том числе осуществлена проверка целостности данных с помощью встроенной в программу команды (Check integrity).
Как показало тестирование, формат SIARD вполне может быть использован и в нашей стране для долговременного хранения структурированных данных большого объема, которые вышли из оперативного использования. ПО SIARD Suite продемонстрировало устойчивую работоспособность всех основных функций. Весомым плюсом является отсутствие в программе функционала для изменения или удаления данных. При этом важно понимать, что для поиска и чтения файлов документов будет необходима выгрузка базы данных из формата SIARD в БД с доступным СУБД, а для перевода в формат SIARD или выгрузки из него базы данных необходима предварительная подготовка.
Также тестирование показало, что для работы с решением необходимы высокая квалификация IT-специалистов, дополнительное освоение ПО SIARD Suite, знание структуры базы данных, а также английского языка, так как на данный момент и интерфейс софта, и документация существуют лишь на английском языке.
«Мы вступаем в эпоху больших данных, которые необходимо не только создавать, но и анализировать и хранить, ведь ценность агрегированных коллекций документов значительно больше, чем каждого документа в отдельности. А это значит, что нам необходимы инструменты для работы с электронными архивами и соответствующие стандарты, — уверена Наталья Мошкова. — Именно поэтому компания ЭОС продолжит работу в этом направлении».