Документооборот

Электронная библиотека содержит более 5 Гб информации и ежедневно увеличивается на 3,5 Мб

 

Необходимость сбора, систематизации и хранения информации в электронном виде давно уже очевидна. Но, как часто бывает с очевидными вещами, мало кто представляет сложность этой задачи. Те, кто понаслышке знают, что компьютер  -  не вычислительная машина, а средство работы с информацией, полагают, что все очень просто; другим, уже сталкивавшимся с профессиональным использованием современных информационных технологий, кажется, что сложностей не преодолеть. Действительно, если попытаться представить себе полнотекстовый архив, охватывающий все периодические печатные издания, выходящие в нашей огромной стране, и новости информационных агентств, становится страшновато. Однако уже несколько лет назад инициативная группа, оформившаяся сегодня в Национальную службу новостей (НСН), поставила перед собой задачу создания такой электронной библиотеки.

 

Работа над проектом началась в 1993 году, когда Александр Перов, бывший редактор газеты "КоммерсантЪ Дейли", и несколько его единомышленников занялись исследованием существующих на тот момент электронных архивов новостей и попытались объединить все работы в этом направлении.

 

Даже сейчас сравнительно небольшая часть редакций работает с текстами в цифровом виде, а тогда их было еще меньше, поэтому одной из основ возникающей службы стала идея применения систем оптического распознавания. Другой важный подход состоял в понимании необходимости создания полнотекстовой базы данных. Практически все архивы, имевшиеся в то время, содержали рефераты, поисковая ценность которых резко уменьшалась с изменением политической обстановки в стране: через год оказывалось, что самое важное референт пропустил. Но создание полнотекстового архива также нереально без системы автоматического распознавания.

 

Осенью 1993 года Александр Воронов, взявший на себя технологическую часть подготовки проекта, сформулировал основные требования к автоматической системе преобразования печатных изданий в электронную форму в виде технического задания, и группа объявила тендер. Из предложений трех российских фирм, занимавшихся системами оптического распознавания символов (OCR), наиболее адекватным оказалось решение фирмы "Бит", и с начала 1994 года началась совместная работа над проектом. К концу года Национальная служба новостей смогла въехать в новое помещение, в котором развернулся процесс промышленного ввода, или, как выражаются сотрудники, "погружения" данных в базу. С тех пор сканеры службы выключались только дважды  -  на время празднования нового 1995 и 1996 годов. Все остальное время 24 часа в сутки работает конвейер: три смены по 15 человек обеспечивают непрерывную подготовку, разметку, сканирование, распознавание, редактирование, гипертекстовую разметку и "погружение" информации. Сейчас архив насчитывает около 1,2 млн. единиц хранения, ежедневно в него вводится до 800 газетных полос формата А2.

 

Александр Воронов и Давид Ян

умеют работать вместе

С июля 1995 года НСН использует систему оптического распознавания FineReader 2.0, а с мая 1996-го перешла на промышленную эксплуатацию новой версии  -  FineReader 3.0 Professional, в которой реализованы требования к программному обеспечению, сформулированные на основе накопленного службой опыта. Система работает в сетевом режиме на 7 сканирующих и 15 распознающих станциях. Оказалось, что для сканирования газет удобнее использовать сканеры формата А4 с последующей "склейкой" листов. Скорость распознавания газетных текстов примерно вдвое меньше скорости сканирования, что и определило состав технологической линии.

 

Разумеется, на эффективность автоматической работы сильно влияет качество исходного материала: легче всего распознавать напечатанные в образцовых типографиях центральные газеты, а вот с местными изданиями бывают проблемы. Поэтому на вопрос о проценте правильно прочитанных символов однозначного ответа не существует. В среднем 60 - 70% общего объема текстов распознаются безошибочно. Благодаря применению новой версии FineReader НСН рассчитывает удвоить объем электронного архива к концу текущего года.

Как мы уже упоминали (PC Week/ RE, № 21/96, с. 57), в архив попадают 240 центральных и региональных периодических изданий, 160 из которых  -  ежедневные газеты, а также материалы информационных агентств и собственных корреспондентов HCH. Этими материалами не исчерпываются все периодические печатные источники, и служба планирует расширять их списки. Обстоятельства сложились так, что сейчас НСН оказалась единственной в своем роде и действительно национальной службой, ее библиотека становится русскоязычным аналогом информационной базы Lexis-Nexis.

Эти газеты уже "погружены"

 

Использование информационной базы с развитой системой поиска такого масштаба  -  дело довольно дорогое. Поэтому, для того чтобы открыть доступ к архиву из Internet, необходимо обеспечить систему оплаты по кредитным карточкам. Руководители службы рассчитывают в течение ближайших месяцев решить организационные проблемы и к концу года сделать электронную библиотеку доступной из Сети. Пока же НСН поддерживает Web-узел (http://www.nns.ru), на котором можно бесплатно получить сведения о государственных и политических деятелях, структурах власти, общественно-политических организациях, средствах массовой информации и о многом другом. НСН выпускает тематические сводки, обзоры и дайджесты новостей, а также осуществляет эксклюзивное обслуживание клиентов.

 

С Национальной службой новостей можно связаться по телефону:

 

(095) 333-1311 или по адресу: webmaster@nns.ru, с фирмой "Бит":

 

(095) 963-4773.

 

Татьяна Балаховская

Версия для печати