“Публичная библиотека” внедряет технологии Excalibur
ПРОЕКТЫ
Андрей Колесов
ПрошедшаЯ за последние полгода серия ИТ-конференций (Электронный офис”, “Фестиваль Microsoft”, локальные мероприятия ряда компаний) показывает, что ранее довольно абстрактный интерес корпоративных клиентов к теме управления знаниями явно переходит в стадию практического создания подобных систем. Соответственно возникает очевидная необходимость изучения опыта реализации подобных проектов, и выясняется, что у потенциальных заказчиков совсем не так много возможностей для удовлетворения своего интереса. Это давно известная проблема нашего рынка, и, к сожалению, часто очень сложно провести грань между нежеланием раскрывать секреты и отсутствием положительных реальных результатов...
Но “все течет, все изменяется” - появляются работающие системы, изначально ориентированные на свободное представление широкой общественности. Например - Web-проект “Публичная библиотека” (www.public.ru), стартовавший весной нынешнего года. Он открыл доступ через Интернет, возможно, к крупнейшему электронному хранилищу материалов на русском языке - полнотекстовой базе данных российских общественно-политических СМИ, формируемой с 1990 г. По состоянию на август 2000 г., архив содержит около 4 млн. текстовых документов общим объемом приблизительно 10 Гб, источники информации включают 470 периодических изданий 70 регионов России, ежесуточное пополнение составляет порядка 4 тыс. документов, технологическая платформа - Windows NT 4.0, СУБД - MS SQL Server 7.0, поисковый механизм - Excalibur RetrieveWare.
Немного истории
Проект был задуман в начале 90-х годов, когда только появившиеся независимые российские информационные агентства, в частности “Постфактум”, занялись мониторингом отечественных СМИ и формированием базы данных о публикациях в отечественной прессе.
Надо отметить заметный прогресс в технике сбора начальной информации. Всего семь лет назад исходные данные еще вводились вручную на клавиатуре. Системы сканирования и распознавания текстов были далеки от совершенства и стоили слишком дорого, никакого Интернета и электронной почты не было. Сегодня 40% информации поступает через Интернет, остальная часть - переводится в цифровой вид с бумажных носителей.
Сначала подобные полнотекстовые базы данных служили для решения сугубо внутренних задач, в частности для составления аналитических обзоров. Но довольно быстро ценность создаваемых электронных архивов отечественных СМИ осознали в организациях, занимающихся так называемыми “политтехнологиями”. А три-четыре года назад процесс извлечения знаний из открытой газетной информации принял коммерческий характер: первыми пользователями ресурса стали ведущие российские телеканалы, крупнейшие отечественные корпорации и банки.
Повышение спроса привело к появлению предложений услуг по оперативному предоставлению информации из периодических изданий и положило начало специализации в этом сегменте рынка информационных услуг, появились поставщики данных, и у многих крупных корпораций отпала необходимость в содержании собственной службы сбора и хранения информации из газет и журналов. Так, в конце 1998 г. на базе коллектива специалистов, занимавшегося в течение нескольких лет подобными задачами, была организована компания “Вектор-Инфо”, главными направлениями работы которой стали мониторинг русскоязычных СМИ (не только российских), тематические подборки материалов, а также проведение аналитических исследований, включая оценку рейтингов на основе сведений, содержащихся в прессе. Обсудив перспективы развития информационного бизнеса, компания “Вектор-Инфо” в новых рыночных условиях приняла решение о начале проекта под названием “Публичная библиотека”.
Отметим также, что к тому времени в Интернете уже существовала “Национальная служба новостей/Национальная электронная библиотека”, решающая примерно аналогичные задачи. Это важный факт: появление второго игрока в некотором секторе рынка - признак того, что данное направление бизнеса имеет реальные перспективы для развития. Наличие же третьего говорит о стабильном росте сегмента...
Цели и задачи проекта
Главная бизнес-цель проекта “Публичная библиотека” - увеличение количества клиентов, в том числе за счет новых слоев потребителей - малых и средних предприятий, а также частных лиц. Это требует решения нескольких взаимосвязанных задач:
1) использовать Web-технологии для предоставления интерактивных информационных услуг. Ранее информационно-аналитические продукты доставлялись клиентам на компакт-дисках или путем передачи по протоколу FTP;
2) расширить число источников информации и повысить эффективность отбора изданий. В библиотеке используется методика, позволяющая оценивать издание по ряду критериев, таких, как тираж, информационная насыщенность, индекс цитируемости, и принимать решение о включении источника в базу или исключении из нее. Сейчас идет обновление базы по региональному признаку, в ближайших планах - провести ревизию базы, уточнив тематику изданий и их популярность;
Рис.1. В начале выполнения запроса нужно указать используемые архивы данных
3) увеличить спектр и повысить качество предоставляемых услуг. На рассматриваемом рынке информационных услуг сложилось равновесие: существующие службы удовлетворяют запросы среднестатистического пользователя Интернета, однако, по оценкам специалистов “Публичной библиотеки”, такое положение дел сохранится примерно год-два. Как только в Интернет придут профессиональные пользователи, станут отчетливо заметны недостатки нынешних систем: высокий уровень информационного шума, отсутствие системы помощи при формулировании поисковых задач, большой объем выдаваемых по запросу данных при полной невозможности оценки их полноты и точности и ряд других.
4) применять в полном объеме национальные стандарты на библиографические описания. Это позволит обмениваться ценной библиографической информацией в оперативном режиме, причем как с национальными, так и с зарубежными провайдерами информации периодических изданий.
Рис. 2. В данном разделе эксперт может уточнить параметры запроса на поиск
“Публичная библиотека” ведет исследования во всех перечисленных направлениях и намерена использовать результаты этой работы в своей практике, за счет чего будет достигнуто перекрывание всех возможных уровней потребности клиентов в информации периодических изданий, включая оперативный поиск полных текстов, предоставление библиографических услуг и фактографических справок по любой тематике. Кроме того, специалисты библиотеки в текущем режиме отслеживают содержание основных национальных изданий, ведут анализ состояния рынка СМИ.
Техническая реализация
Весной 1999 г. полнотекстовый архив СМИ фирмы “Вектор-Инфо” имел объем свыше 7 Гб текстовой информации примерно из 300 периодических изданий. Система функционировала с использованием ПО одного из российских разработчиков, но, с учетом перспектив расширения проекта, было решено рассмотреть возможные альтернативные варианты.
В результате анализа нескольких средств создания информационно-поисковых систем зарубежных и российских разработчиков в качестве платформы был выбран продукт Excalibur RetrieveWare WebExpress корпорации Excalibur Technologies, интересы которой в России представляет компания “Весть-Метатехнология”.
По словам директора “Публичной библиотеки” Елены Бунь, такое решение во многом объясняется изучением опыта применения технологий Excalibur в крупнейших информационных хранилищах мира - в библиотеках Конгресса США и Британского музея. Хотя объем архива “Публичной библиотеки” сегодня не очень велик по сравнению с западными проектами, но динамика его роста весьма значительна, поэтому наиболее актуальна проблема масштабируемости.
Большое значение имеют мощные и разнообразные поисковые возможности Excalibur. Наличие Русского поискового сервера, разработанного фирмой “Весть-Метатехнология” в рамках локализации продукта, позволяет использовать технологию расширенного поиска для русскоязычных документов с применением запросов в виде логических конструкций или на естественном языке. В то же время крайне необходим имеющийся в Excalibur механизм нечеткого поиска. Он обеспечивает не только решение проблемы опечаток в документах или ошибок при распознавании текста, но также открывает отличные возможности для автоматизации поиска в массивах звуковой, графической и видеоинформации. Расширение базы данных в будущем планируется вести в значительной степени за счет широкого охвата мультимедийной информации.
Явным плюсом продукта Excalibur является его реализация в виде настоящего коробочного варианта. Настройка и адаптация под конкретный проект, а также разработка некоторых дополнительных модулей выполнялась силами программистов “Вектор-Инфо”. Представители компании “Весть-Метатехнология” подчеркивают, что проект был реализован при минимальном участии их специалистов и за достаточно сжатые для подобных проектов сроки - девять месяцев.
Сервер проекта начал функционировать в рабочем режиме в конце мая нынешнего года, и в составе его пользователей пока всего несколько десятков клиентов (среди них, в частности, телеканалы РТР и НТВ). По сведениям маркетинговой службы “Публичной библиотеки”, примерно 20% потребителей - крупные корпорации, по 30-35% - западные СМИ и российские PR-агентства, 15% - частные лица. Стоимость доступа к информационным ресурсам системы в зависимости от принятой схемы составляет от 8 долл./ч (при почасовой оплате) до 1500 долл./мес (при неограниченном времени доступа).
Разумеется, сейчас трудно уверенно говорить о будущем развитии “Публичной библиотеки”. Однако сам факт появления Интернет-проекта, в основе которого - предоставление информационных услуг, а не размещение рекламы, свидетельствует о том, что российские пользователи готовы платить за системы управления знаниями. А также о том, что имеются технологии и накапливается опыт их применения для создания таких систем.
10 ключевых проблем выбора поисковой системы. Как их решает Excalibur RetrieveWare
Закон, сформулированный поЧти тридцать лет назад Джеймсом Мартином (авторитетным американским специалистом по информационным системам), гласит: “Если система полезна, то нагрузка на нее будет возрастать до полного исчерпания ее пропускной способности. Вывод: чем полезнее система, тем скорее она придет в негодность”. Если электронный архив и обеспечивающий его поисковый механизм полезны (например, позволяют получать дополнительную прибыль), то объем архива и поток запросов к нему будут расти...
1. Масштабируемость по объему. Объем архива может быстро увеличиваться, причем гораздо более высокими темпами, чем предполагалось изначально. Поддержка больших информационных массивов в целом не является проблемой. Вопрос заключается в том, как скорость поиска зависит от объема. К сожалению, реальные показатели быстродействия очень сложно определить теоретически, для их получения нужны тестовые испытания. Excalibur RetrievalWare (ERW) уже работает в системах с архивами, объем которых измеряется сотнями гигабайт.
Так экспериментальные данные, полученные в Национальной библиотеке Конгресса США (там система Excalibur применяется уже несколько лет), показывают логарифмический рост времени поиска при увеличении объема информации:
2. Аппаратно-программная платформа. Повышение производительности конкретной прикладной системы может быть достигнуто за счет смены аппаратно-программной платформы, а также использования многопроцессорных и многосерверных конфигураций. ERW способен эффективно распараллеливать свою работу и поддерживает более десятка разнообразных серверных платформ.
3. Информационный поток обновлений. Некоторые поисковые системы приостанавливают доступ к архиву на время переиндексации при подключении новой информации. ERW делает это “на лету”, обеспечивая при необходимости авторубрикацию поступающих документов.
4. Форматы представления исходных документов. ERW поддерживает более двухсот форматов, пользователь может подключать к системе собственные конверторы.
5. Необходимость поддержки широкого круга источников информации (файловые системы, Интернет, базы данных, почтовые системы, специализированные системы управления документами и пр.). ERW может одновременно работать с документами из большого спектра источников.
6. Защита информации. ERW имеет развитую систему защиты информации (контроль доступа на уровне отдельных документов, передача данных в зашифрованном виде). Информация о пользователях и правах доступа может наследоваться от источников, из которых взяты документы. Этот механизм применяется при подключении нестандартных хранилищ документов.
7. Логический поиск (с использованием логических операторов и ключевых слов). ERW отличается богатым набором команд и возможностей (логические операторы, операторы ограничения расстояния между словами и порядка следования слов, операторы нечеткого и семантического расширения слов, операторы поиска по диапазонам чисел и дат, поддержка XML и т. п.).
8. Смысловой поиск (расширение поискового запроса близкими по смыслу словами) характеризует качество поисковых систем, так как именно он обеспечивает высокую релевантность найденной информации. ERW способен учитывать морфологию и семантику языка. Семантическая сеть реализована в виде ориентированного графа, соединяющего слова и понятия и приписывающего связям определенные весовые коэффициенты. Ее применение позволяет сначала расширять состав поискового запроса, а затем ранжировать найденные документы по степени их соответствия запросу. Локализованная версия ERW включает Русский семантический сервер - набор программных средств и информационных ресурсов для полнотекстового поиска с учетом специфики русского языка. Библиотека морфологического анализа содержит словарь объемом 240 тыс. словарных статей. Семантическая сеть русского языка включает в себя около 90 тыс. слов и идиоматических выражений, а также более 350 тыс. связей между ними. Пользователь может пополнять словари, применять одновременно несколько словарей и семантических сетей.
9. Механизм нечеткого поиска. Наличие опечаток и ошибок в исходной информации - явление достаточно распространенное. ERW использует в качестве одного из методов поиска технологию адаптивного распознавания образов, основанную не на точном совпадении слов документа и запроса, а на определении меры их близости. Ее применение позволяет исключить трудоемкие операции проверки орфографии и исправления ошибок после работы автоматических систем распознавания текста. Тот же метод лежит в основе уникальных технологий ERW для поиска фактически любой представленной в электронном виде информации - текстов, изображений, звуков, видео.
10. Функциональная расширяемость системы. Большинство поисковых систем снабжено интерфейсом прикладного программирования, обеспечивающим доступ к их поисковым механизмам со стороны внешних приложений. Однако зачастую этого недостаточно для глубокой интеграции электронного архива с используемыми в организации приложениями. Открытая архитектура ERW предоставляет разработчикам широкие возможности, вплоть до модификации ядра поисковой системы. Продукты ERW поставляются в коробочных вариантах, для их освоения и адаптации не нужен непосредственный контакт с их создателями.