Методы управления поведением робота Яндекса

 

Мета-теги

Мета-теги позволяют вебмастерам указывать метаданные о странице сайта. Ряд мета-тегов также используется роботами поисковых систем. Робот Яндекса учитывает содержание следующих тегов:

  • <meta name="Keywords" content="…"/> — может учитываться при определении соответствия страницы поисковым запросам,
  • <meta name="Description" content="…"/> — содержание данного тега может использоваться в сниппетах (описаниях сайтов на странице результатов поиска),
  • <meta http-equiv="Content-Type" content="type; charset=…"/> — робот может учитывать этот тег при определении типа документа и его кодировки,
  • <meta http-equiv="refresh" content="N;url=_адрес цели перенаправления_"/> — перенаправление (редирект) пользователя на страницу с адресом url, после N секунд нахождения на данной странице. При небольших значениях N считается временным перенаправлением, аналогичным серверным редиректам с HTTP-кодом 302/303/307.

Также робот Яндекса учитывает указания в тегах:

  • <meta name="robots" content="all"/> — разрешено индексировать текст и ссылки на странице, аналогично <meta name="robots" content="index, follow"/>
  • <meta name="robots" content="noindex"/> — не индексировать текст страницы,
  • <meta name="robots" content="nofollow"/> — не переходить по ссылкам на странице,
  • <meta name="robots" content="none"/> — запрещено индексировать текст и переходить по ссылкам на странице, аналогично <meta name="robots" content="noindex, nofollow"/>
  • <meta name="robots" content="noarchive"/> — не показывать ссылку на сохраненную копию на странице результатов поиска.
  • <meta name="robots" content="noyaca"/> — не использовать описание из Яндекс.Каталога для сниппета в результатах поиска.
  • <meta name="robots" content="noodp"/> — не использовать описание из каталога DMOZ для сниппета в результатах поиска.

В атрибуте name вместо значения robots можно использовать значение yandex, чтобы указать директивы только для робота Яндекса, например:

<meta name="yandex" content="all"/>

Робот не узнает о документах, если ссылки на них стоят со страницы, содержащей мета-тег со значением nofollow, тем не менее, они могут быть проиндексированы, если где-либо еще на них указаны ссылки без nofollow.

Если мета-теги не указаны, робот считает, что они имеют положительное значение (index, follow, archive). Если робот обнаруживает конфликт между тегами, выбирается именно положительное значение.

Пример:

<meta name="robots" content="all"/> <meta name="robots" content="noindex, follow"/> <!—Робот выберет значение all, текст и ссылки будут проиндексированы.—>

Исключение — атрибут all не влияет на noarchive:

<meta name="robots" content="all"/> <meta name="robots" content="noarchive"/> <!—Текст и ссылки будут проиндексированы, но в результатах поиска не будет ссылки на сохраненную копию страницы.—>

Тег <noindex>

Для запрета индексирования служебных участков текста вы можете использовать тег. Тег работает аналогично мета-тегу noindex, но распространяется только на контент, заключенный внутри тега в формате:

<noindex>текст, индексирование которого нужно запретить</noindex>

Тег noindex не чувствителен к вложенности (может находиться в любом месте html-кода страницы). При необходимости сделать код сайта валидным возможно использование тега в следующем формате:

<!--noindex-->текст, индексирование которого нужно запретить<!--/noindex-->

Атрибут rel="nofollow" тега <a>

Атрибут rel="nofollow" используется в теге <a> в формате:

<a href="url" rel="nofollow">текст ссылки</a>

Атрибут работает аналогично мета-тегу со значением nofollow, но распространяется только на ссылку, для которой указан.

Атрибут rel="canonical" тега <link>

Если на сайте присутствуют группы схожих по контенту страниц, вебмастер может указать для каждой страницы группы предпочитаемый (канонический) адрес, который будет участвовать в поиске. Например, страница доступна по двум адресам:

www.examplesite.ru/pages?id=2 

www.examplesite.ru/blog

Если предпочитаемый адрес — /blog, это нужно отразить в коде страницы /pages?id=2:

<link rel="canonical" href="http://www.examplesite.ru/blog"/>

Робот считает ссылку с атрибутом rel="canonical" не строгой директивой, а предлагаемым вариантом, который учитывается, но может быть проигнорирован.

Например, робот может не использовать указанный вами адрес, если:

  • Документ по каноническому адресу недоступен для индексирования.
  • В качестве канонического адреса указывается URL в другом домене или поддомене.
  • Вы указали несколько канонических адресов.

Также не рекомендуется создавать цепочки канонических адресов: не должно получаться так, что канонический адрес для example.ru/1 — example.ru/2, в то время как для example.ru/2 указан канонический адрес example.ru/3.