Возможности Web усовершенствовались по многим направлениям: Web-страницы и Web-приложения стали гораздо лучше справляться с обработкой оперативно обновляемых данных, значительно повысилось качество передачи контента в современных прикладных системах и потоковых мультимедийных сервисах, а современные браузеры, в частности Mozilla и Opera, предоставляют хороший контроль над использованием ресурсов Сети.
Однако один важный аспект Web - поиск информации на сайтах - еще остается на довольно невысоком уровне.
Поисковые возможности большинства контент-ориентированных сайтов и сайтов компаний сегодня столь же неудовлетворительны, как и несколько лет назад. Мы с огорчением убедились, что могли бы попросту переписать статью о путях улучшения сайтового поиска, опубликованную в PC Week еще в июне 1997 г. Все упомянутые там проблемы существуют и поныне, и наши прошлые рекомендации остаются благими пожеланиями. Скажем, на сайтах надо использовать собственные индексы, готовые шаблоны поисковых запросов и хорошие метатеги, но делается для этого поразительно мало.
Часть проблемы состоит в том, что сама поисковая технология за последние годы очень мало изменилась. Большинство усовершенствований поисковых систем было сфокусировано на ускорении индексирования и обработки, а не на изменениях в базовой технологии поиска. Кроме того, общее представление, что "поиск - дело дохлое", стало одной из главных причин апатии к улучшению поиска информации на сайтах.
Это никуда не годится.
Как мы уже писали в том же 1997-м, если посетители или покупатели не могут найти на вашем сайте того, что их интересует, они скорее всего больше сюда не зайдут. К чему подвергаться этому риску, если для улучшения поиска информации часто требуются очень простые меры?
Среди самых эффективных способов совершенствования поиска назовем предварительно построенные индексы и ссылки на контент, который чаще всего интересует посетителей. Вы реально знаете, что ищут люди (почти все поисковые машины могут предоставлять отчеты о предмете поиска), а эти данные позволяют довольно легко создать ссылки на наиболее востребованный контент, поместив их непосредственно на странице, с которой осуществляется поиск.
Далее, хотя существуют средства автокатегоризации, например Clustering Engine 4.0 фирмы Vivisimo, помогающие ориентироваться в крупных собраниях разнородной информации, многие сайты все же имеют дело с относительно небольшим и тематически ограниченным объемом контента. Для них работа по составлению хорошего указателя - вопрос нескольких дней.
При слабом общем развитии поисковых возможностей последние годы все-таки отмечены отдельными успехами. Одним из важных моментов является растущее использование в контенте XML-данных. Поскольку XML структурирует контент, он может обеспечить эффективность поиска примерно на том уровне, который обычно характерен для баз данных.
Кроме того, многие продукты корпоративного уровня, например порталы и системы управления контентом, добавляют к нему XML-разметку непосредственно в процессе создания контента. Это значительно упрощает реализацию поиска с охватом широкого круга источников информации. Однако в настоящее время эту возможность используют, похоже, очень немногие сайты.
Не так давно появилась технология, с которой связывают большие ожидания по улучшению поисковых возможностей, - RDF (Resource Description Framework - инфраструктура описания ресурсов). Являясь ключевым элементом ныне разрабатываемого проекта Semantic Web, RDF обеспечивает возможность присоединения к Web-контенту описательных метаданных. А это, в свою очередь, позволяет средствам поиска понимать не только слова, но и контекст, т. е. реальное значение слова и взаимосвязи, заложенные в контенте.
Имея огромный потенциал, RDF распространяется очень медленно. Однако есть и еще одно средство помощи для отыскания нужной информации - основанная на RDF технология RSS (RDF Site Summary).
RSS-механизм публикации (так называемые RSS feeds) обычно используется новостными сайтами и публично доступными личными журналами (blog) для распространения информационных подборок или обслуживания пользователей, подписавшихся на регулярно обновляемые дайджесты. Однако RSS можно использовать на сайтах и для формирования каналов, отражающих часто разыскиваемые категории контента. По этим каналам можно будет по подписке или эпизодически получать обновления, информирующие о произошедших на сайте изменениях.