Теория и практика работы с robots.txt

 

Иногда веб-мастеру может потребоваться закрыть от индексации часть сайта. Эта задача легко решаема, так как большинство Web Роботов позволяют администраторам сайтов ограничить свое поведение на сайте. Это можно сделать несколькими способами:

  • Можно указать, какие части сайта не должны посещаться роботами, разместив специально отформатированный файл в корне сайта — http://www.site-name.ru/robots.txt
  • Администратор может указать, может страница быть проиндексирована или нет, или проанализирована на наличие ссылок, используя специальный HTML META тег.
  • Использовать нестандартные приемы, работающие для конкретных роботов. Например запретить роботу следовать по ссылке при помощи rel="nofollow" (Google, MSN, Yahoo) или запретить индексацию части страницы при помощи тега <noindex> (Yandex, Rambler).

Следует отметить, что все эти методы не дают стопроцентной гарантии. Некоторые роботы могут попросту не обращать на них внимание.

Стандарт исключений для Роботов

Стандарт исключений для роботов был принят в 1994 году и с тех пор не менялся. Стандарт описывает общие принципы написания robots.txt. Вкратце — при заходе на сайт робот запрашивает файл robots.txt, чтобы посмотреть, какие разделы и документы на сайте запрещены для него.

Важно помнить, что стандарт является необязательным, и его придерживаются только «вежливые и культурные» роботы. Врядли вы сможете при помощи него запретить, например, доступ для роботов ворующих у вас контент.

Руководство по использованию robots.txt

Подробнее о написании robots.txt и о том, что означают различные правила, можно узнать из руководства по использованию robots.txt.

МЕТА-тег «Robots»

МЕТА-тег «Robots» позволяет создателям страниц указывать Роботам, можно ли индексировать данную страницу и можно ли использовать ссылки, приведенные на странице. Этот тег указывается на каждой конкретной странице, доступ к которой требуется ограничить.

Нестандартные методы ограничения доступа

Не предусмотреные стандартом средства ограничения доступа к содержимому сайта. В первую очередь тег и аттрибут rel="nofollow".