Обзор
Для организации поиска на Web-узле необходимо глубокое знание администраторами своих данных
Джим Рапоза (PC Week Labs)
Intelligent Text Management System Web Search Server фирмы Information Access Systems по-новому организует поиск информации на Web-узлах, позволяя обнаруживать даже те имеющие отношение к заданной теме документы, которые не содержат ни одного ключевого слова или выражения.
В ходе испытаний, проведенных в Тестовом центре PC Week Labs, ITMS Web Search Server, выпущенный в январе этого года, не просто составлял индекс заданных слов и осуществлял по нему поиск, а по-настоящему классифицировал документы. Правда, нам пришлось немало потрудиться над его настройкой.
Администратору потребуется много времени и хорошее знание своих данных, чтобы получить отдачу от мощного потенциала ITMS Web Search Server. Этот продукт не рассчитан на применение в качестве поискового механизма на обычных Web- или intranet-узлах. Как нам удалось обнаружить, в наибольшей мере он подходит для предприятий, имеющих дело с узкоспециализированной информацией, а также для систем технической поддержки продуктов.
ITMS Web Search Server 1.0 рассчитан на работу в среде Windows 95 и Windows NT и имеет весьма солидную цену - $20 000 на сервер. За дополнительные $10 000 можно получить инструментальный комплект построения “баз суждений” Judgment Base Development Toolkit; кроме того, предлагаются платные консультации и обучение.
Технология J-Space
ПО ITMS Web Search Server 1.0 построено на основе разработанной специалистами Information Access технологии J-Space (“пространства суждений”), позволяющей описать отношение слов к определенным предметным областям, чтобы затем классифицировать на этой основе документы по тематическому признаку. В комплект поставки входит готовая “база суждений” J-Space Judgment Base, настроенная на материалы обычных новостных узлов, однако для организации поиска в своих особых документах многим клиентам придется провести разработку собственной такой базы. Это не представляет трудности, но отнимает исключительно много времени.
Judgment Base состоит из набора списков рейтингов релевантности различных слов по отношению к определенным предметным категориям. Рейтинги могут меняться от 0 (наименьший уровень релевантности) до 9 (наивысший уровень релевантности). Слова, включенные в пользовательский запрос, анализируются по рейтингам Judgment Base на соответствие тем или иным предметным категориям.
Для составления списков релевантных слов мы просматривали типичные документы, опубликованные на нашем Web-узле, и копировали наиболее значимые из них в модуль редактирования Judgment Base Module Editor. Допускается задание шаблонов, определяющих группы слов, например сomput* для множества однокоренных образований, связанных с компьютерами и вычислительной техникой. Можно также включать или отключать чувствительность к регистру.
На следующем шаге составляется список предметных категорий для Judgment Base. Затем группа отобранных пользователей, или арбитров, оценивает рейтинг релевантности каждого слова по каждой из категорий. Все это звучит очень просто, однако такая работа требует глубокого понимания типа подлежащей индексированию информации и отношений между терминами. Пользователям, берущимся за создание своих собственных Judgment Base, необходимо регулярно проводить проверки работы системы, чтобы быть уверенными в правильности ее настройки.
В отличие от традиционных поисковых механизмов, которые способны самостоятельно переходить по ссылкам, встроенным в основную Web-страницу, и таким образом самостоятельно индексировать сразу большое количество документов, ITMS Web Search Server обрабатывает только явно указанные ему документы. Это можно сделать, задавая URL-адрес каждой страницы индивидуально либо используя построитель списка адресов URL List Builder, с помощью которого можно индексировать сразу целые каталоги файлов. Для применения URL List Builder необходим прямой доступ к соответствующим файлам и каталогам.
Резюме для руководителей
ITMS Web Search Server 1.0
Способность ПО ITMS Web Search Server производить в высокой степени сфокусированный поиск независимо от совпадения или несовпадения конкретных ключевых слов делает это средство весьма привлекательным для компаний, имеющих дело с узкоспециализированной и четко классифицированной информацией. Но применять этот продукт фирмы Information Access на обычных Web- или intranet-узлах - все равно что палить из пушки по воробьям.
Поиск документов с применением классификатора ключевых слов; построение индексов по конкретным предметным областям.
Не предусмотрен автоматический переход по гипертекстовым ссылкам при индексировании документов; длительная процедура построения “базы суждений” Judgment Base.
Фирма Information Access Systems, Боулдер, шт. Колорадо, (303) 442-6224, www.j-space.com.
Методика оценки: www.pcweek.com/reviews/meth.html.