Кормление прилежных “пауков” и уход за ними

 

При управлении “пауками” должны соблюдаться некоторые общие “правила этикета”. Например, они не должны находиться в активном состоянии, когда с управляющим пользователем не может быть установлен контакт: если с “пауком” возникают проблемы, исправить их может только его хозяин.

 

Следует также использовать стандартные поля Hypertext Transport Protocol для идентификации “паука”, ссылочного узла и контактной информации. Управляющий пользователь должен быть в состоянии отключить “паука”, перенаправить его и предотвратить повторный проход по уже проторенным путям.

 

Все крупные компании, поддерживающие общедоступные базы данных, создают свои механизмы поиска (crawler) в соответствии с неофициальным стандартом Standard for Robot Exclusion. Не столь строгий, как брандмауэры, этот протокол позволяет администраторам узлов устанавливать запрещающие знаки, которым “пауки” неукоснительно подчиняются.

 

В частности, данный протокол предохранит специализированные серверы с репозиториями данных от замедления до полной остановки из-за того, что “пауки” начинают сами себя “пожирать”.

 

Поскольку многие собрания HTML-страниц (язык гипертекстовой разметки текста) не видны широким слоям пользователей и поэтому не защищены брандмауэром, “пауки” представляют значительную угрозу безопасности организаций.

 

“Пауки” могут отслеживать даже невидимые каталоги. Если сотрудник или организация, знающие о существовании невидимого каталога, установят с ним связь через World-Wide Web-страницу, механизм поиска может найти и проиндексировать его для общего использования, независимо от того, хранится ли в нем ненужный хлам или материалы конструкторских разработок.

 

Если Вы  -  администратор Web-узла или собираетесь писать собственные программы-“пауки”, обратите внимание на замечания и указания, помещенные в узле Web-Crawler.

 

К. Ф.