Хотя “пауки” полезны для ускорения и облегчения доступа к страницам World-Wide Web на серверах предприятий, в случае, если они по какой-то причине начнут вызывать проблемы, их можно уничтожить.
Для этой цели поместите файл robots.txt, который, согласно протоколу, исключает работу роботов, в корневой каталог вашего сервера Web.
После этого любой “паук”, подчиняющийся протоколу, добровольно покинет узел.
Первый пример показывает, как запретить определенному “пауку” вход в каталог /tmp. Имя и идентификатор перепишите из файла регистрации сервера Web.
Может иметь смысл исключить каталог, содержащий слишком много информации, привлекательной для данного “паука” (что приводит к чрезмерной загрузке ресурсов сервера), определенную незаконченную страницу Web или даже сообщения об ошибках, которые могут неблагоприятно характеризовать компанию в чьих-нибудь указателях.
Конечно, если каталог, пусть даже невидимый, содержит информацию, чувствительную к взглядам извне, возникает вопрос, нужно ли ему вообще быть в Web.
USER-AGENT: имя “паука”
12-значный цифровой идентификатор пользователя
DISALLOW: /tmp
К сожалению, поле ALLOW (разрешить) не предусмотрено. Чтобы разрешить доступ к одному каталогу, запретите доступ ко всем остальным.
Если вы хотите запретить любым роботам доступ ко всем каталогам, воспользуйтесь следующим примером (однако помните, что доступ для роботов выгоден для узла; запретив его, вы можете в конечном счете отвадить нужных вам посетителей):
USER-AGENT: *
DISALLOW: /
К. Ф.