Теория и практика работы с robots.txt


Оглавление документа


Иногда веб-мастеру может потребоваться закрыть от индексации часть сайта. Эта задача легко решаема, так как большинство Web Роботов позволяют администраторам сайтов ограничить свое поведение на сайте. Это можно сделать несколькими способами:


  • Можно указать, какие части сайта не должны посещаться роботами, разместив специально отформатированный файл в корне сайта – http://www.site-name.ru/robots.txt
  • Администратор может указать, может страница быть проиндексирована или нет, или проанализирована на наличие ссылок, используя специальный HTML META тег.
  • Использовать нестандартные приемы, работающие для конкретных роботов. Например запретить роботу следовать по ссылке при помощи rel="nofollow"(Google, MSN, Yahoo) или запретить индексацию части страницы при помощи тега <noindex> (Yandex, Rambler).

Следует отметить, что все эти методы не дают стопроцентной гарантии. Некоторые роботы могут попросту не обращать на них внимание.

Стандарт исключений для Роботов


Стандарт исключений для роботов был принят в 1994 году и с тех пор не менялся. Стандарт описывает общие принципы написания robots.txt. Вкратце – при заходе на сайт робот запрашивает файл robots.txt, чтобы посмотреть, какие разделы и документы на сайте запрещены для него.


Важно помнить, что стандарт является необязательным, и его придерживаются только «вежливые и культурные» роботы. Врядли вы сможете при помощи него сможете запретить, например, доступ для роботов ворующих у вас контент.


Руководство по использованию robots.txt


Подробнее о написании robots.txt и о том, что означают различные правила, можно узнать из руководства по использованию robots.txt.

МЕТА-тег “Robots”


МЕТА-тег “Robots” позволяет создателям страниц указывать Роботам, можно ли индексировать данную страницу и можно ли использовать ссылки, приведенные на странице. Этот тег указывается на каждой конкретной странице, доступ к которой требуется ограничить.

Нестандартные методы ограничения доступа


Не предусмотреные стендартом средства ограничения доступа к содержимому сайта. В первую очередь тег <noindex> и аттрибут rel="nofollow".


 
Много комментариев (4). [Показать комментарии/форму]

На правах рекламы

Партнерские программы: ЦОП Яндекс-Директ и свои PPC
Партнерская сеть MixMarket.BIZ приглашает партнеров. Мы работаем над вашими сайтами вместе с вами!

Разработка сайта — веб-студия «Силуэт»
Хостинг — телекоммуникационная компания «Новател»
Сайт работает на Wacko Wiki
Rambler's Top100