По мере развития Интернет обостряется парадокс: вероятность существования нужной информации возрастает, а возможность ее нахождения уменьшается. Теоретически гипертекстовая природа WWW обеспечивает нахождение любой информации в процессе целенаправленного продвижения по ссылкам. Однако, согласно оценкам, в Интернет сегодня существует более 60 млн. документов и найти нужное в этом пространстве, продвигаясь от ссылки к ссылке, практически невозможно.
Обычно пользователь Интернет довольно быстро обзаводится собственным набором (иногда весьма большим) любимых и часто посещаемых узлов, для удобного доступа к которым любой браузер позволяет сформировать массив “закладок” (bookmarks). Однако при необходимости найти что-то новое проблемы, стоящие перед опытным и неопытным пользователями, практически одинаковы. Одинаковы и способы их решения: использование справочно-поисковых систем, предназначенных именно для нахождения необходимой информации в больших ее объемах.
Мы предлагаем краткий обзор поисковых систем для Интернет. Основная часть материалов получена из первоисточников, т. е. авторских описаний систем, которые можно найти на соответствующих узлах.
Все существующие типы поисковых систем обрабатывают массивы неоднородной информации, содержащейся в Интернет, но используют разные механизмы и способы поиска.
Типы поисковых систем условно можно разделить на несколько классов:
- машины Web-поиска (search engines, SE);
- каталоги (directories, DIR);
- базы данных адресов электронной почты (e-mail addresses database, mailDB);
- поиск в архивах Gopher (Gopher archives, GA);
- системы поиска ftp файлов (FTP Search, ftpS);
- системы поиска в Usenet News (Usenet search или Newsgroups search, NS);
- интерфейсы к другим поисковым системам (Interfaces) и мультисистемные поисковые интерфейсы (Metasearch Pages, MP).
Многие системы являются интегрированными, т. е. предоставляют информацию и по Web, и по Gopher или FTP, или, незаметно для пользователя, обеспечивают возможность поиска как в Web, так и в Newsgroup, но рассматривать и сравнивать эти возможности можно только по отдельности.
Машины Web-поиска (SE)
Машинами Web-поиска мы называем информационные системы, которые позволяют осуществлять поиск в Web-пространстве, объединенном HTTP-протоколом.
К наиболее известным SE относятся Alta Vista, Excite, Hot Bot, InfoSeek, Lycos, Open Text, WebCrawler и WWW Worm. Существует еще ряд “национальных” поисковых систем, из которых мы обратим внимание на “Русскую машину поиска”.
Основное преимущество этих систем - рекордная скорость поиска и интуитивная прозрачность процесса: пользователь задает ключевое слово (или слова) - SE выдает списки и точные адреса тех документов, в которых это ключевое слово встречается.
Для того чтобы справляться со своими обязанностями, SE должна проделать огромный объем предварительной работы.
1. Определяются точные адреса тех узлов, которые будут включены в обрабатываемую область данной системы (обычно этим занимается специальная программа, которая наделена правом производить селекцию тех или иных узлов).
2. Засылается индексирующая программа (“робот”) или производится зеркальное дублирование всего информационного материала.
3. Производится собственно индексация, при которой фиксируются положения всех более или менее значащих слов, которые называются “ключевыми” (к “неключевым” словам относятся наиболее часто употребляемые в речи союзы, предлоги, местоимения и т. д.; индексация бывает полнотекстовой, при которой обрабатывается весь текст, и неполнотекстовой, когда обрабатываются отдельные наиболее значащие части теста: заголовки, названия, ключевые поля, начальные слова разделов и т. д.).
4. Полученная база данных о ключевых словах добавляется к существующей.
5. Если был сделан зеркальный дубль (п. 2) - он стирается;
6. Повторяются п.п. 2 5 для каждого адреса, полученного в п. 1.
К образовавшейся в результате индексирования базе данных можно обращаться посредством специального интерфейса. Кроме этого интерфейса, пользователь практически ничего и не видит.
При одинаковой канонической структуре поисковые системы различаются по многим параметрам:
- пространство индексируемых серверов - например, Alta Vista все еще продолжает полнотекстовую обработку всей сети Интернет; эта амбициозная, но нереальная задача стоит также перед Hot Bot, однако уже стало ясно, что она практически не решаема (последнее связано еще и с тем, что информация быстро устаревает и необходимо производить регулярную переиндексацию всех серверов, а это требует огромных компьютерных мощностей и информационных потоков);
- процедура создания запросов к поисковым системам - здесь основным критерием служит возможность создавать сложные запросы типа: “бананы и/или апельсины морским транспортом из Марокко или Колумбии, но не Эквадора”;
- характер выдаваемой информации - наиболее удобные поисковые системы выдают отсортированные списки и сопровождают найденные адреса небольшими фрагментами текста, содержащими искомые ключевые слова.
Кроме того, результаты поиска на некоторых машинах могут быть сохранены в виде закладок (т. е. SE готова для каждого завести на сервере соответствующий файл).
Таким образом, если вы знаете, какими ключевыми словами характеризуется нужная информация, - смело пользуйтесь SE.
Alta Vista
(http://www.altavista. digital.com)
Alta Vista была создана фирмой Digital Equipment Corporation (DEC) для демонстрации возможностей вычислительных машин, построенных на основе процессоров Alpha. Эта задача успешно реализована: ни одно описание SE не обходится без упоминания этой системы, ее впечатляющей мощности и быстродействия. По данным фирмы DEC, в комплексе Alta Vista неутомимо трудится шесть машин, построенных на основе 64-разрядного процессора Alpha 266MHz. Самая мощная из них - AlphaServer 8400 5/300: эта 10-процессорная машина (!) с 6 Гб (!!) оперативной памяти каждую секунду (!!!) обслуживает несколько сотен запросов пользователей, успевая менее чем за секунду (!!!!) просматривать индексную базу данных размером более 45 Гб.
В мае 1996 г. Alta Vista уже индексировала около 30 млн. HTML-страниц и 13 тыс. групп новостей. В результате эта система выдает не всегда самый свежий, но наиболее полный результат поиска по всей Интернет.
Поиск производится в точном соответствии с введенным словом без учета морфологических вариаций, прописные и строчные буквы различаются. Ключевые слова запроса в ответе выделяются жирным шрифтом, однако система не производит сортировку полученных адресов по критерию наибольшего соответствия запросу. В результате приходится искать необходимые ссылки в довольно длинных списках.
Вместе с тем подсистема Power Search, которая входит в Alta Vista, позволяет конструировать сложные запросы; пользуясь ими, можно и учесть морфологические вариации, и существенно повысить выход целевых ссылок. Необходимость конструировать запросы с использованием логических операторов and, or, not и near является весьма небольшой платой за предоставляемые возможности.
Alta Vista позволяет сохранить результаты поиска в виде “закладок”.
Эта информационно-справочная система не содержит ни одной строчки рекламы, ее дизайн отличается строгостью и изысканной скромностью.
Excite
(http://www.excite.com)
SE Exite фирмы Architext Software - это интегрированная поисковая система, содержащая SE (NetSearch), большой каталог обзоров (NetDirectory), новости и др. SE Excite отличается самым большим набором сервисных услуг, которые обеспечивают простой поиск и удобное для восприятия представление информации.
Excite индексирует около 50 млн. страниц специально отобранных наиболее популярных Web-узлов (около 60 тыс.). Рейтинг популярности определяется по количеству ссылок на данный узел из уже индексируемых списков. Кроме того, регулярно отслеживаются специальные узлы What’s New, где выискиваются наиболее интересные новые ссылки. Реиндексация производится еженедельно.
Поиск ведется без учета морфологических вариаций ключевых слов, однако замечательной особенностью Excite является возможность поиска по концептам, что фактически позволяет провести одновременный поиск по всем синонимам вводимого ключевого слова, правда, часто результаты оказываются идентичными. Возможность формировать сложные запросы облегчает нахождение специфической информации, к тому же этим мощным инструментом нетрудно научиться пользоваться.
Система производит адекватную сортировку получаемых результатов в соответствии с близостью к введенному запросу и представляет описания узлов. Excite, так же как InfoSeek и Open Text, выдает хорошо отсортированный список, в котором нужные ссылки очень часто находятся в числе первых.
Однако хотя отсутствие URL в представляемых списках и повышает привлекательность формы, но это происходит в ущерб содержанию. Результаты поиска не могут быть сохранены в виде “закладок”.
Excite - адекватная и очень дружественная комплексная система для поиска актуальной и пользующейся спросом информации. Экзотику с ее помощью найти трудно.
Hot Bot
(http://www.hotbot.com)
Чрезвычайно мощная, быстрая машина поиска фирмы Inktomi, основанная на оригинальном программном обеспечении. Если Alta Vista призвана демонстрировать производительность процессоров Alpha, то Hot Bot показывает фантастическую производительность группы не очень мощных вычислительных машин, связанных решением общей задачи. В основе проекта находится весьма прогрессивная технология фирмы Inktomi, позволяющая организовывать виртуальный параллельный суперкомпьютер на пространстве вычислительных машин, связанных в обычную сеть. Необходимо отметить, что задача поиска весьма удобна для организации параллельных вычислений. Вполне возможно, что Hot Bot в ближайшее время составит (или уже составляет) довольно жесткую конкуренцию рекордным показателям Alta Vista.
HotBot индексирует около 55 млн. документов в Web, а также Usenet News.
При организации запроса морфологическое расширение не производится. Можно формировать сложные запросы и сохранять свою настройку опций, искать по словам, фразе, искать персоны и ссылки, а также документы по дате публикации (!). Поддерживается редкая возможность найти все ссылки на задаваемый пользователем адрес.
Выходной список сортируется (по % соответствия), ключевые слова не выделены. В ответе выдается не фрагмент целевого текста, а краткое содержание страницы, созданное специальной программой.
Очень быстрая, удобная и мощная SE.
InfoSeek
(http://infoseek.com)
Интегрированная поисковая система InfoSeek компании Infoseek Corporation содержит SE и DIR и обеспечивает поиск по Newsgroup. Индексируется весь текст страниц.
Эта система не отличается особенно большой базой данных, однако, согласно многим независимым оценкам, является наиболее интеллектуализированной. Особенно замечательно, что эта интеллектуальность проявляется без каких-либо усилий со стороны пользователя. Это значит, что можно ввести достаточно сложный запрос, а об остальном система сама позаботится!
В процессе поиска InfoSeek, так же как Alta Vista, может различать прописные и строчные буквы, что сильно увеличивает эффективность некоторых видов поиска.
Очень полезна возможность повторного поиска по критерию “Similar Pages”, позволяющая находить родственные страницы.
Предоставляемые InfoSeek описания результатов - самые полные. Так же как Excite и Open Text, эта система выдает хорошо отсортированный список, в котором нужные ссылки очень часто оказываются в числе первых.
Кроме английского, есть еще и немецкий, испанский и французский варианты.
Если необходимо провести поиск по незнакомой тематике, то InfoSeek будет самой лучшей SE, которая выведет пользователя на нужную информацию.
Lycos
(http://www.lycos.com)
Lycos (интегрированная справочно-информационная система университета Карнеги-Мелона) является одной из старейших и так же, как Alta Vista и Hot Bot, пытается объять всю Интернет - около 66 млн. Web-страниц (сама Lycos считает, что это около 91% WWW, но кто знает, как велика эта WWW на самом деле?). Наряду с SE система содержит большой и удобный раздел обзоров и многое другое, включая интерактивную карту автомобильных дорог США. Все это легко доступно, ориентацию облегчает карта узла по адресу: http://www.lycos. com/sitemap.html. (Web-мастерам предлагаем обратить внимание: это очень удобно и для разработки сложных узлов, и для ориентации в них!)
Индексация производится не по всей Web-странице, а только по создаваемому специальной программой ее содержанию, в которое в основном попадают ключевые слова служебных заголовков (header), заголовков страниц, ссылок и немногих начальных слов разделов.
Lycos включает в индексируемое пространство FTP- и Gopher-узлы, храня в базе данных информацию о большом количестве бинарных файлов (gif, jpg, wav, MPEG). Последний вид сервиса немного экзотичен: ведь не придет в голову автору назвать соответствующий wav-файл “предупредительный рык морского котика, отгоняющего молодого самца от своего гарема”. Похоже, что ключевые слова редко попадают в название файла, - а как иначе такой файл найти? Мне, например, удалось найти только одну (!) ссылку на изображения Даяны Росс: ни на одной из многочисленных посвященных ей страниц ни одна картинка не называется “diana ross”.
В отличие от большинства других база данных Lycos обновляется по частям, причем чаще реиндексируются наиболее популярные узлы. Таким образом, “свежесть” получаемой информации находится в прямой зависимости от ее популярности.
Возможно формирование сложных запросов, система понимает морфологические вариации ключевых слов.
Ключевые слова запроса выделены в ответе, однако необходимая ссылка, так же как в случае с Alta Vista, часто находится не во главе получаемого списка. Полнота результатов поиска сравнима только с Alta Vista.
Все это делает данную SE одной из самых сильных и эффективных.
Open Text
(http://index.opentext.net)
Машина поиска фирмы Open Text Corporation содержит как SE, так и DIR. Фирма существенно ориентирует свой бизнес на Интернет и демонстрирует свои возможности с помощью данной SE, относящейся к числу наиболее мощных. Open Text производит полнотекстовую индексацию около 60 млн. страниц (!). Обновляется постоянно, реиндексируя ежедневно около 50 тыс. страниц. Обслуживает около 250 тыс. запросов в день.
Может производить поиск по словам, словосочетаниям и фразам, но морфологические вариации ключевых слов не подставляет.
Система запросов Open Text - одна из наиболее развитых и позволяет конструировать самые сложные запросы, используя операторы and, or, not, but not, near и followed by. Можно также задать локализацию поиска: везде, в названии, в заголовке и т. д. В результате всего этого наибольшую пользу Open Text принесет тому пользователю, который не поленился научиться с ней обращаться.
Open Text, так же как Excite и InfoSeek, выдает хорошо отсортированный список, в котором нужные ссылки очень часто оказываются в числе первых. Очень полезный и мощный инструмент.
WebCrawler
(http://www.webcrawler.com)
Эта машина поиска компании America Online поддерживает также DIR. Ее философия проста: несложная, но актуальная база, легкий и быстрый поиск. Вся база данных возобновляется ежемесячно и пополняется еженедельно, что позволяет поддерживать высокую степень адекватности получаемых результатов.
Индексируются наиболее популярные страницы (немногим более 100 тыс. - это одна из самых маленьких баз данных). WebCrawler - единственная SE, дающая соответствующую ссылку в числе первых при поисках базовых страниц каких-либо компаний.
Она позволяет конструировать булевы запросы, но не различает прописные и строчные буквы. Ответ сопровождается названием Web-страницы без каких-либо описаний, но оценивается по соответствию запросу (небольшая цветная полоска). Результаты могут быть сохранены в виде “закладок”.
Эта машина поиска хороша для быстрого просмотра популярных узлов, содержащих “горячую” информацию.
WWW Worm
(http://wwww.cs.colorado.edu/wwww.html)
Одна из первых SE, которая в наше время выглядит просто динозавром. Расположена на перегруженном сервере Университета штата Колорадо и поэтому часто не может ответить на вызов. Но если пользователь все же решает добраться до нее - выдает вполне достойные результаты, отвечая на почти 2 млн. запросов в месяц.
Последнее является хорошей демонстрацией того, что индексация правильно отобранных фрагментов текстов может дать неплохие результаты для определенного круга запросов.
WWW Worm хранит только адреса и названия страниц и изображений (около 3 млн.), что делает эту SE лучшей для поиска страниц, которые поменяли адрес, или всех страниц, принадлежащих какой-либо компании, и т. д.
Только эта система может предъявить в ответе gif-картинки.
В Университете Колорадо есть и другая возможность поиска в Интернет, базирующаяся на Harwest, однако, как и WWWWorm, она тоже скорее демонстрирует технологические возможности студентов, нежели является полноценной машиной поиска.
РУССКАЯ МАШИНА ПОИСКА
http://search.interrussia.com)
Машина поиска компании Interrussia.com работает на IBM-совместимом сервере, собранном инженерами самой фирмы. По сравнению с оборудованием, на котором работают SE других фирм, сервер “Русской машины поиска” со своим процессором Pentium выглядит просто Золушкой. Система основана на сильно переработанной версии Harvest и способна индексировать по любому из Интернет-протоколов (HTTP, FTP, Gopher, News) любой документ, однако, ввиду ограниченности вычислительных ресурсов, индесирует только WWW (протокол HTTP).
Эта SE характеризуется следующим: она индексирует только узлы стран СНГ (чуть более 1500), содержащие информацию, касающуюся СНГ, или ориентированные на Россию, которые регистрируются на “Русской машине поиска” (около 150 “иностранцев”). Индексация полнотекстовая.
Русский и Английский интерфейсы, обеспечивают поиск на обоих языках. В запросе есть возможность задавать отношение к заглавным буквам, что сильно увеличивает эффективность некоторых видов поиска. Есть также необычная возможность задавать количество допустимых ошибок во введенном ключевом слове; последнее имеет большое значение для русскоязычного поиска, частично снимая проблему морфологического многообразия слов в русском языке (дом-дома-дому-. . . ). Подобно лучшим SE, эта машина поиска позволяет формировать сложные структурированые запросы [(бананы OR апельсины) AND “морской транспорт”AND (Марокко OR Колумбия)]. Возможно ограничивать поиск атрибутами web-страниц (название, автор и т. д.)
В процессе поиска учитываются все вхождения ключевых слов в документе, а результаты сопровождаются фрагментами текста. Количество выдаваемых ссылок можно регулировать от 10 до 1000.
Популярность “Русской машины поиска” (около 200 тыс. обращений в месяц) является хорошей иллюстрацией кризиса глобальных систем и перспективности региональных, отраслевых или делящих Интернет по любому другому удобному для пользователей признаку машин поиска.
Необходимо, конечно, упомянуть и другие русскоязычные поисковые системы: “Апорт” ( http://russia.agama.com/aport/ ), “Яндекс” ( http://www.cti.ru/alta.html ), “Rambler” ( http://www.rambler.ru ), “Новый русский поиск”( http://www.openweb.ru/koi8/ cgi-bin ), “Паук” ( http://spider.raser.ru ) и “Russian Internet Search” ( http:// www.search.ru ).
Интересны такие системы, как “Апорт” (индексирует 16 узлов) и “Яндекс” (обрабатывает и передает запрос на Alta Vista), хорошо демонстрирующие возможности оригинальных и весьма перспективных языковых разработок, которые позволяют справиться с морфологическим богатством русского языка.
“Желтые страницы Интернет (русские ресурсы)” (http://www.piter-press.ru/koi/yp/full_wersion/yp_toc. htm) и “Созвездие Интернет” (http://www.stars.ru), как и знаменитая YAHOO, - не машины поиска, а директории, о них речь пойдет в следующих публикациях.
Кстати, настоящая полноценная SE является весьма эффективным инструментом анализа и маркетинга на пространстве Интернет, но это должно быть темой отдельного разговора.
Варлам Кешелава
К Варламу Кешелаве, аналитику interrussia.com, можно обратиться по адресу: kesha@interrussia.com.