Статья только в электронной версии журнала
ОБЗОРЫ
Обновленная система распространяет поиск на базы данных и улучшает управление этим процессом
Джим Рапоза (PC Week Labs)
Последние годы технология поиска в Интернете заметно не улучшалась и продолжает относиться к числу тех вещей, которые чаще всего вызывают нарекания пользователей. Несколько исправить положение дел в этой области призвана выпущенная в марте система AltaVista Search Engine 3.0 (ASE3) компании AltaVista (подразделение фирмы CMGI)
Поисковые возможности сервера ASE3 выходят за пределы Web-страниц и файлов общего пользования: он способен напрямую индексировать базы данных, что резко расширяет круг корпоративных данных, по которым можно проводить поиск.
Стартовая цена продукта составляет $1495 в расчете 3000 индексируемых документов (понимаемых как единичные результаты поиска); компанией предусмотрена гибкая система скидок при использовании сервера в более крупных информационных массивах. ASE3 поддерживает самые разнообразные платформы и работает под Windows NT, Solaris, Linux, Tru64 Unix и AIX.
AltaVista усовершенствовала и лингвистические возможности своей новой системы, которая теперь может производить расширенный поиск, обрабатывать целые фразы, находить орфографические ошибки, подбирать синонимы. ASE3 унаследовала многие из функций популярного поискового сайта Alta Vista, включая поддержку нескольких языков и перевод. Благодаря этой поддержке мы смогли легко переключать поисковый интерфейс на другие языки. Однако возможности перевода сведены лишь к пересылке URL-адреса результата нашего поиска в систему перевода Web-сайта Alta Vista.
ASE3 не только имеет функции расширенного поиска, но и дает, как показали тесты PC Week Labs, очень точные результаты - практически для любого запроса первая пятерка найденных документов действительно отражает самые подходящие страницы. Продукт обеспечивает более точный поиск, чем сходные системы индексирования других разработчиков, скажем Texis фирмы Thunderstone Software-EPI.
Новый интерфейс AltaVista Search Engine упрощает создание многочисленных индексов и управление ими
Компании, желающие улучшить поиск на своем Web-сайте или в интрасети, могут увидеть AltaVista Search Engine в действии на таких несхожих друг с другом узлах, как Amazon.com и W3C.org. Тем, у кого уже имеется более ранний вариант этой системы, советуем перейти на версию 3.0, чтобы воспользоваться ее продвинутыми функциями. Организациям, работающим с бесплатным ПО или коммерческими продуктами фирм Verity и ZyLab International, стоит сравнить их возможности с теми, что предлагает AltaVista.
Как показали наши тесты, ASE3 легко расширяется, в первую очередь благодаря добавлению интерфейсов прикладного программирования для языков Си и Java, через которые обеспечивается возможность интеграции поисковой системы с приложениями третьих фирм. К тому же теперь этот сервер можно непосредственно подключить к имеющим открытый код Web-серверам Apache или IIS (Internet Information Server) корпорации Microsoft.
Поисковая система AltaVista проста в установке, но предъявляет весьма высокие требования к системным ресурсам. При установке приложения под Windows NT ей требуется не меньше 256 Мб оперативной памяти, 1 Гб виртуальной памяти и более 5 Гб дискового пространства для индексирования.
Наиболее впечатляющим в новом продукте является компонент Database Collector - он обеспечивает связь баз данных и поисковой машины. Чтобы сделать БД доступной для поиска, достаточно описать источник данных адресом Java Database Connectivity, задать поля базы данных, в которых можно производить поиск, и поля, возвращаемые в результатах поиска. Эта функция не только расширяет поисковые возможности ASE, но и дает компаниям реальную возможность задействовать серверные источники данных без помощи портальных приложений.
Новый, основанный на Java интерфейс управления системой через браузер позволил нам дистанционно администрировать сервер, легко добавлять новые поисковые индексы и вносить в них изменения. Интерфейс также предоставляет информацию об эффективности работы текущих индексов, хотя желательно было бы иметь более подробные отчеты.
В ASE3 входит новый мастер, упрощающий создание индексов Web-сайтов, каталогов документов и баз данных. Благодаря ему мы могли формировать многочисленные индексы, управлять ими и составлять расписание их регулярного обновления. К тому же для каждого индекса можно запустить несколько модулей Collector, что позволяет использовать индекс одновременно для разных типов содержимого.
Для создания индекса содержимого Web-страниц достаточно лишь ввести список URL-адресов подлежащих сканированию узлов, задать нужные типы документов и ввести правила фильтрации. Еще проще составлять индексы для каталогов с документами общего пользования. Индексирование обычно осуществляется довольно быстро, за исключением очень крупных индексов.
С помощью ASE3 администраторы могут задавать степень нагрузки на сайт во время его индексирования - от агрессивной процедуры сканирования, способной снизить производительность узла, до относительно щадящего режима. При действующих по умолчанию параметрах индексирование такого крупного сайта, как www.pcweek.com, заняло у нас целую ночь, даже при установке поисковой системы на мощный компьютер с процессором Intel Pentium III.
AltaVista Search Engine включает встроенный Web-сервер. Большинство организаций сможет воспользоваться им, добавив нужные поисковые поля на своих Web-сайтах. Для этого нужно лишь отредактировать соответствующие шаблоны. Версия 3.0 предоставляет пользователям Apache или IIS возможность обходить этот Web-сервер и направлять запросы в систему поиска непосредственно из уже действующих Web-серверов.
Со старшим аналитиком Джимом Рапозой можно связаться по адресу: jim_rapoza@ziffdavis.com.
Взгляд из лаборатории: Херб Бетони
Нынешние поисковые машины являются не лучшим средством нахождения желаемой информации среди миллионов Web-страниц, но, как говорится, чем богаты, тем и рады.
До того как Интернет превратился в тот спутанный клубок информации, каким он видится в наши дни, поиск по заданному слову или фразе обычно давал примерно то, что требовалось пользователю. Web-сайты типа Excite, Lycos и Yahoo умеют эффективно “ползать” по Интернету, прослеживая каждую ссылку и заглядывая на каждую страницу. Такое “ползанье” было эффективным методом поиска на заре Web, однако разработчики сайтов быстро освоили правила игры. Благодаря всевозможным выдумкам, появившимся на Web-страницах, вы с таким же успехом можете напороться на порносайт, как и на то, что вы действительно ищете.
Новые поисковые системы не занимаются прослеживанием гиперссылок, как их предшественники, - они составляют индексы по всем файлам заданного каталога или группы каталогов, а затем классифицируют файлы по их предметному содержанию. Система может находить термины, содержащиеся внутри документа, а не только в заголовке, благодаря чему поиск получается более точным.
Действительно надежные технологии поиска в Web появятся еще не скоро. Интернет-порталы сочетают “ползанье” и индексирование, и это помогает пользователям отыскать желанную информацию, однако самый лучший способ находить то, что нужно, - это затратить некоторое время на освоение разумных приемов поиска.
Со старшим аналитиком Хербом Бетони можно связаться по адресу: herb_bethoney@ziffdavis.com.
Резюме для руководителей
AltaVista Search Engine 3.0
Создавая новую версию своего поискового ПО, AltaVista использовала практически те же технологии, которые сделали ее общедоступный сайт одной из самых популярных и мощных поисковых машин Web. При этом компания расширила ядро этого продукта, чтобы помочь компаниям улучшить средства поиска на своих Web-сайтах.
КРАТКОСРОЧНЫЙ ПРОГНОЗ. После установки AltaVista Search Engine компании сразу же почувствуют улучшение качества поиска документов, однако им следует проводить регулярное обновление поисковых индексов, чтобы обеспечить точность поиска.
ДОЛГОСРОЧНЫЙ ПРОГНОЗ. Ряд будущих стандартов XML, например RDF, радикально изменит способы поиска в Web. Если AltaVista сможет обеспечить их своевременную поддержку в своей системе, то этому продукту гарантирована долгая жизнь.
( + ) Может создавать поисковые индексы для Web-сайтов, документов баз данных; новые лингвистические возможности улучшают точность поиска.
( - ) Ограниченные возможности дистанционной доставки отчетов; жесткие требования к мощности аппаратуры.
Компания AltaVista, Сан-Матео, шт. Калифорния, (877) 398-4287, solutions.altavista.com.
Методика оценки: www.pcweek.com/reviews/meth.html.