В предыдущем обзоре (PC Week/RE, № 10/97, с. 26) мы коротко ознакомились с машинами Web-поиска (Search Engines - SE), которые позволяют искать информацию по ключевым словам.
Альтернативным SE способом поиска необходимой информации являются директории. Во многих случаях, когда трудно или невозможно сформулировать ключевые слова, но тематика точно известна, наиболее подходящим инструментом поиска оказываются директории. Например, как подобрать ключевое слово, чтобы найти гостиничный номер в Бангкоке? Но можно провести поиск по теме “агентства путешествий” или “турагентства”.
Директории представляют собой списки Интернет-адресов (URL) с короткими описаниями. Чем больше список, тем он может быть полезней, но тем трудней его просмотреть.
Для облегчения поиска внутри списков производится их многоуровневая рубрикация. Общее число конечных рубрик в наиболее известной директории Yahoo! превышает 4000 (!) и является предметом авторского права. Не надо думать, что все рубрики независимы и различны, например журналы по архитектуре, керамике и дизайну могут (и должны) быть доступны не только в соответствующих подразделах рубрики - “Искусство”, но также и в рубриках “Искусство/Журналы”, “Искусство /Публикации”, “Средства массовой информации/Журналы” и т. д. Сверхзадача построения рубрикации такова: если кому-то может прийти в голову искать нечто именно в данной рубрике - надо, чтобы он это нечто там нашел (ведь пользователь всегда прав!).
Рубрикация ресурсов производится на основе их описаний, которые обычно делаются вручную специально собранной командой. Таким образом, если создание SE - это работа программистов (дальше они нуждаются в присмотре, но способны работать самостоятельно), то директории - результат постоянной ручной работы специалистов по обработке информации. Директории могут иметь какую-либо определенную направленность, что проявляется в особо тщательном представлении тех или иных материалов и специфических способах рубрикации.
Вместе с тем практически любая директория содержит то, что называют словечком “Webzine” (вебзин - WEB magaZINE). Это и понятно: раз уж кто-то каждый день вручную просматривает Интернет, то пусть заодно и напишет пару-тройку замечаний по поводу того, что видел, - в итоге получается довольно интересный и постоянно обновляемый обзорный журнал об информационных ресурсах Интернет (если у вас будет свободное время и вы владеете английским языком - познакомьтесь с вебзинами - это время не будет потерянным). В описании Yahoo! сказано, что некоторые материалы обновляются несколько раз за день! Вебзины обычно содержат разделы о спорте, бирже и бизнесе, новостях Интернет, разделы для начинающих и т. д. А еще там есть всякая интересная всячина: географические карты и карты автодорог, погода, что-нибудь для детей, служба поиска знакомых в Интернет и пр. - в общем, жизнь бурлит! Фактически именно на примере вебзинов наиболее ярко видны те преимущества, которые дают технологии Интернет для публицистики: огромную эпопею можно создавать (и публиковать!) по частям и при этом постоянно поддерживать ее актуальность.
Многие директории (и Yahoo! тоже) имеют раздел, где описываются лучшие (с точки зрения команды писателей данной директории) узлы. Их отмечают наградами; получить такую награду считается весьма престижным.
Зарабатывает большинство директорий на рекламе - и здесь есть одна тонкость. На SE, по большому счету, всего две страницы: одна для ввода запросов и другая для предоставления результатов. Правда, на странице результатов можно показать соответствующую тематике рекламу. Зато в директориях страниц множество и каждая изначально соответствует какой-либо тематике, а значит, может содержать прицельную рекламу!
Сравнивать директории между собой (это как сравнивать синее с соленым) - весьма неблагодарная задача, поэтому мы остановимся на самой знаменитой из них и очень коротко просмотрим остальные.
Yahoo!
Yahoo! ( http://www.yahoo.com ) зародилась типичным для директорий образом: в основе ее лежат ссылки на любимые узлы, собранные двумя студентами Стэнфордского унивеситета Дэвидом Фило и Джерри Янгом. В 1994 г. их увлечение стало основной деятельностью. В прошлом году Yahoo! акционировалась, в результате чего (по непроверенным данным) бывшие студенты заработали по очень много миллионов долларов и финансировали строительство очередного корпуса своей alma mater.
Сегодня Yahoo! прочно держит пальму первенства и по объему материала, и по популярности. Она содержит базу данных, описывающую десятки тысяч WEB-узлов (точных данных я найти не смог, возможно, их просто не существует). Программное обеспечение представляет собой оригинальную СУБД (некоммерческую), работающую под Unix на сети компьютеров класса Pentium.
Первый уровень рубрикации Yahoo! состоит из 14 разделов, в каждом из них множество подразделов, а в них, в свою очередь... и т. д. В среднем имеется 4 - 5 уровней. Выбрав нужный раздел, пользователь получает список подразделов, сужающий круг поиска, и так до тех пор, пока не попадет на конечную страницу, содержащую ссылки на соответствующие ресурсы. Около большинства ссылок стоит несколько слов описания - и вот цель достигнута! Необходимо отметить, что рубрикация сделана настолько хорошо, что пользоваться ею можно сразу и без особых затруднений, несмотря на всю разницу в манере мышления и восприятия действительности, которая существует между жителями разных континентов.
В Yahoo! есть еще и маленькая SE, обеспечивающая поиск по ключевым словам внутри самой Yahoo!. А уж если Yahoo! бессильна помочь, она автоматически предлагает провести поиск в уже знакомой нам Alta Vista.
Другие директории
Широко известна директория McKinley’s Magellan Internet Directory (www. mckinley.com). Если искомое в основной части не нашлось - можно поискать среди узлов, которые “еще не просмотрены”, или провести дополнительный поиск в различных частях Excite.
Excite Reviews (www.excite.com/ Reviews/?acb) кроме основной части содержит еще раздел международных новостей, прогноз погоды, мнения обозревателей, а также массу другого интересного материала.
Многие знакомые нам SE имеют также полноценные директории и вебзины. Директория SE Lycos называется PointCom (www. pointcom.com) и содержит описания только тех узлов, которые ее команда относит к 5% лучших.
InfoSeek (infoseek.com) на первой же странице ненавязчиво объявляет себя самой большой Web-директорией.
WebCrawler Select (webcrawler.com/ select/) представляет обзоры только по отобранным узлам.
Надеюсь, все знают, что такое Yellow Pages. Понятно, что любая электронная версия Yellow Pages, содержащая ссылки на ресурсы Интернет, имеет право называться директорией. Самый большой справочник такого рода - Big Yellow (Nynex Interactive Yellow Pages, www. niyp.com).
На бизнес-ресурсы ориентирован справочник Apollo (apollo.co.uk).
Число подобных директорий огромно, они представляют различного рода информацию, и каждая из них может быть полезна в том или ином случае.
Отечественные директории
Огромная работа проделана А. Сигаловым, создавшим “Желтые страницы Интернет”. Версия “Желтые страницы Интернет. Русские ресурсы” представлена по адресу: www.piter-press.ru/koi/yp/full_ version/yp_start.htm, здесь на русском языке (наконец-то!) добросовестно описана отечественная Интернет. Материал действительно весьма объемен и разделен на логически оправданные части. Некоторые страницы, правда, слишком длинны, что затрудняет работу большинству отечественных пользователей, входящих в Интернет по низкоскоростным коммутируемым телефонным линиям. Весьма интересное чтение представляет бумажная версия этого материала. Существуют также “Желтые страницы Интернет. Международные ресурсы” (посмотрите рекламную информацию по адресу: www. piter-press.ru/koi/main.html).
“Россия ОнЛайн” (РОЛ) предлагает свою директорию в качестве путеводителя по Сети, отличающуюся особым вниманием к российским и относящимся к России источникам. Охватывает саму РОЛ и тысячи других серверов.
Английскую версию можно найти по адресу: www.online.ru/emain/, русскую - www.online.ru/rmain/ (я их не сравнивал и за идентичность не ручаюсь).
Базы данных адресов электронной почты
Есть в Интернет способ поиска отдельных личностей. Если у кого-то есть электронный адрес, и он честно указал при получении последнего свое имя, то его можно попробовать отыскать - с помощью директорий Four11 (www.four11.com) или Lookup (www.lookup.com/lookup/search. html). Если же вы сторонник интегрированных решений и проверенных систем, попробуйте то же самое на InfoSeek.
Поиск в архивах Gopher
Если вас интересуют полные тексты литературных произведений, начиная от сказок и заканчивая классическими романами, имеет смысл познакомиться с системой Gopher.
В пространстве Gopher собрана богатейшая литературная библиотека, однако материалы недоступны для просмотра в удаленном режиме: пользователь может только просматривать иерархически организованное оглавление и выбирать файл по названию. Получив файл на свой компьютер, можно распоряжаться им по своему усмотрению. Технологическими ограничениями Gopher, очевидно, и определяется его литературно-текстовая направленность.
В Gopher-пространстве существует полный регистр узлов, что очень удобно для подробного просмотра соответствующих ресурсов. Однако чтобы найти нужный текст, приходится порой просмотреть множество узлов, при этом процесс далеко не так легок, красив и удобен, как в WWW.
Gopher в наше время практически не развивается и функционирует на сильно перегруженных серверах, однако современные инструменты работы в Web позволяют полноценно использовать Gopher. Для поиска информации можно обратиться к информационной системе Galaxy (galaxy.einet.net/gopher/gopher. html), основную часть Gopher-пространства индексируют Lycos, OpenText, WebCrawler и WWWWorm.
Системы поиска ftp-файлов
Протокол ftp предназначен для передачи по сети файлов, и в этом смысле он функционально является своеобразным аналогом Gopher. Соответственно и используется он сходным образом, но содержит в основном не литературные произведения, а программное обеспечение, описания, технические тексты, изображения и т. д.
Все современные браузеры работают с ftp, поэтому, следуя от ссылки к ссылке в гипертексте, пользователь может незаметно попасть в пространство ftp. Видимым отличием будет изменение адреса страницы (URL) в служебном окошке браузера: http://www........... будет изменено на: ftp://......... . Кроме того, страница утеряет весь блеск WWW и превратится в обычный список каталогов и файлов. В каталоги можно входить, а файлы можно скопировать (нажимаете правую клавишу мыши и выбираете “save as...”).
Пространство ftp индексируют Lycos, OpenText и WebCrawler. Кроме этого существуют и специализированные системы поиска: FtpSearch (http://Ftpsearch. Ntnu.No/Ftpsearch); Snoopie (http://www. snoopie.com); Shareware.com (http://www. shareware.com); JUMBO (http://www. jumbo.com/Home_Page.html).
Системы поиска в Usenet News
Современная Интернет кроме уже упомянутых протоколов http, Gopher и ftp, поддерживает также News. Мир News - это мир свободного общения в режиме переписки: если вы специалист по гонадам членистоногих вредителей хвойных растений ледникового периода (что это я такое наговорил!?) и хотите пообщаться со столь же образованным человеком, то мир News - для вас. Здесь каждый пользователь может сформировать рубрику по своим интересам и ожидать появления в ней друзей по переписке. Таких рубрик - тысячи, на любой вкус, поэтому, возможно, ничего создавать не придется, достаточно будет присоединиться к близкой по тематике группе специалистов.
Как искать информацию в News? Alta Vista, Excite и InfoSeek Guide довольно подробно индексируют пространство новостей. Не забудьте, что на SE надо явно указывать, в какой части Интернет вы хотите провести поиск (по умолчанию везде установлено WWW).
Кроме этого существует специализированная система DejaNews (www. dejanews.com) - она наверняка поможет.
Но помните: поток новостей так велик, что они часто архивируются. Если вы не нашли нужной информации сразу - поищите в архивах.
Интерфейсы к Чужим поисковым системам и мультисистемные поисковые интерфейсы
Технологии Интернет позволяют автоматически передать на любую SE запрос, формирование которого происходит вне ее. Таким образом создаются лжепоисковые системы, в которых собственным является только пользовательский интерфейс (остается надеяться, что этот интерфейс действительно гораздо удобнее оригинального). Подобное решение эффективно и оправданно для формирования морфологически гибкого запроса к SE, у которой такой возможности нет. При этом сложный запрос, учитывающий морфологические вариации слов, генерируется на одном узле, а собственно поиск, соответствующий запросу, происходит на другом.
Практически все описываемые ниже поисковые системы осуществляют поиск в чужих базах данных, механизм создания и проблемы обновления которых остаются за кадром.
Мультисистемные поисковые интерфейсы представляют собой интерфейсы, где с одной страницы можно послать запрос на несколько поисковых систем. Чаще всего один запрос адресуется на какую-либо одну поисковую систему, а для того, чтобы воспользоваться другой, необходимо ввести тот же запрос еще раз в новом окошке.
Приятное исключение представляет собой поисковая система SavvySearch (http://guaraldi.cs.colostate.edu:2000/): она действительно может послать запрос сразу в 25 различных баз данных, получить от них ответы, отсортировать, изъять повторы и представить пользователю. При этом SavvySearch способна предложить план по дополнительному поиску. На основе ключевых слов запроса и предыдущего опыта система рекомендует дальнейшие шаги.
SavvySearch имеет интерфейсы на многих языках, включая турецкий, чешский, словацкий, венгерский и т. д. Качество их остается для меня тайной, что же касается русского интерфейса, то он выглядит так же наивно и неуклюже, как насильно обученные русскому языку программные продукты фирмы Microsoft.
Компания Geocities весьма успешно ведет агрессивную политику по захвату WWW-рынка, предлагая своим потенциальным клиентам множество бесплатных услуг. Возможно, что именно благодаря самодеятельности пользователей на Geocities существует не одна, а по крайней мере две поисковые мультисистемы. Одна из них - “CaBOOM!” (www.geocities.com/TheTropics/3690/ caboom.html) - работает с рядом SE и директорий. Счетчик, установленный на CaBOOM, честно показывает 170 380 запросов почти за целый год (и это по сравнению с миллионами в день на AltaVista!!!). Другая интегрированная метасистема - Snake Eyes (www.geocities. com/SiliconValley/6937/snakeiz.html) - обеспечивает интерфейс к 17 поисковым системам и с февраля 1995 г. накопила 21 543 посещений.
Интегрированная метасистема Internet Sleuth (www.isleuth.com/) представляет собой коллекцию более чем 2000 (это даже в логотипе указано) доступных для поиска баз данных. Вот уж действительно интегрированная система, тут все, что можно было придумать: и интерфейсы к SE и директориям, и возможность поиска в новостях, и собственная директория. Однако весь собственный поиск ограничен названиями и описаниями ресурсов.
На крупных Web-узлах можно обнаружить более или менее локальные SE, обеспечивающие поиск на самом узле и на пространстве тематически связанных документов. Такие системы поддерживают многие крупные компании, особенно производители оборудования, облегчая поиск в каталогах.
В качестве заключения
Идеальной поисковой системы нет, наверное, поэтому существующие все время совершенствуются и достаточно часто появляются новые.
Как может выглядеть действительно удобная и хорошая Поисковая Система? Учитывая скорость роста Интернет, трудно представить, чтобы какая-то одна система оказалась достаточно эффективной и обеспечивала весь мыслимый сервис. Наверное, поисковых систем всегда будет несколько (или много).
В то же время ближайшие перспективы развития поисковых систем логично вытекают из недостатков существующих.
Основным недостатком машин поиска является довольно примитивный принцип их построения: прямая индексация по всем ключевым словам. Этот недостаток может быть компенсирован вторичной обработкой получающейся базы данных и созданием интеллектуализированного интерфейса. Последний должен обеспечивать ряд значительных свойств:
- учет морфологических вариаций ключевых слов;
- автоматический перевод введенных ключевых слов на заданный второй (в случае российской Интернет - английский) язык и проведение поиска на двух языках;
- автоматический подбор синонимов ключевых слов;
- смысловое деление индексируемых текстов и фильтрацию полученных результатов по соответствию тематике запроса;
- интегрированный перевод текстов, обеспечивающий возможность перевода получаемых результатов поиска;
- кроме того, общение с SE должно быть таким же простым и не требующим подготовки, как общение с библиотекарем, прекрасно знающим, где и что у него в библиотеке находится.
В свою очередь директории должны строиться полностью автоматически. Для этого необходимо решить ряд проблем, аналогичных проблемам SE: подбор синонимов, смысловое и тематическое деление текстов и т. д.
Компанией interrussia.com такая работа ведется, мы готовы к сотрудничеству с заинтересованными партнерами. Возможно, что общими усилиями нам удастся скоро превратить “Русскую машину поиска” (http://search.interrussia. com) в интеллектуального и доброжелательного проводника по обширным ресурсам Интернет.
Варлам Кешелава