[toc depth=2]
Мета-теги
Мета-теги позволяют вебмастерам указывать метаданные о странице сайта. Ряд мета-тегов также используется роботами поисковых систем. Робот Яндекса учитывает содержание следующих тегов:
- <meta name="Keywords" content="…"/> — может учитываться при определении соответствия страницы поисковым запросам,
- <meta name="Description" content="…"/> — содержание данного тега может использоваться в сниппетах (описаниях сайтов на странице результатов поиска),
- <meta http-equiv="Content-Type" content="type; charset=…"/> — робот может учитывать этот тег при определении типа документа и его кодировки,
- <meta http-equiv="refresh" content="N;url=_адрес цели перенаправления_"/> — перенаправление (редирект) пользователя на страницу с адресом url, после N секунд нахождения на данной странице. При небольших значениях N считается временным перенаправлением, аналогичным серверным редиректам с HTTP-кодом 302/303/307.
Также робот Яндекса учитывает указания в тегах:
- <meta name="robots" content="all"/> — разрешено индексировать текст и ссылки на странице, аналогично <meta name="robots" content="index, follow"/>
- <meta name="robots" content="noindex"/> — не индексировать текст страницы,
- <meta name="robots" content="nofollow"/> — не переходить по ссылкам на странице,
- <meta name="robots" content="none"/> — запрещено индексировать текст и переходить по ссылкам на странице, аналогично <meta name="robots" content="noindex, nofollow"/>
- <meta name="robots" content="noarchive"/> — не показывать ссылку на сохраненную копию на странице результатов поиска.
- <meta name="robots" content="noyaca"/> — не использовать описание из Яндекс.Каталога для сниппета в результатах поиска.
- <meta name="robots" content="noodp"/> — не использовать описание из каталога DMOZ для сниппета в результатах поиска.
В атрибуте name вместо значения robots можно использовать значение yandex, чтобы указать директивы только для робота Яндекса, например:
<meta name="yandex" content="all"/>
Робот не узнает о документах, если ссылки на них стоят со страницы, содержащей мета-тег со значением nofollow, тем не менее, они могут быть проиндексированы, если где-либо еще на них указаны ссылки без nofollow.
Если мета-теги не указаны, робот считает, что они имеют положительное значение (index, follow, archive). Если робот обнаруживает конфликт между тегами, выбирается именно положительное значение.
Пример:
<meta name="robots" content="all"/> <meta name="robots" content="noindex, follow"/> <!—Робот выберет значение all, текст и ссылки будут проиндексированы.—>
Исключение — атрибут all не влияет на noarchive:
<meta name="robots" content="all"/> <meta name="robots" content="noarchive"/> <!—Текст и ссылки будут проиндексированы, но в результатах поиска не будет ссылки на сохраненную копию страницы.—>
Тег <noindex>
Для запрета индексирования служебных участков текста вы можете использовать тег. Тег работает аналогично мета-тегу noindex, но распространяется только на контент, заключенный внутри тега в формате:
<noindex>текст, индексирование которого нужно запретить</noindex>
Тег noindex не чувствителен к вложенности (может находиться в любом месте html-кода страницы). При необходимости сделать код сайта валидным возможно использование тега в следующем формате:
<!--noindex-->текст, индексирование которого нужно запретить<!--/noindex-->
Атрибут rel="nofollow" тега <a>
Атрибут rel="nofollow" используется в теге <a> в формате:
<a href="url" rel="nofollow">текст ссылки</a>
Атрибут работает аналогично мета-тегу со значением nofollow, но распространяется только на ссылку, для которой указан.
Атрибут rel="canonical" тега <link>
Если на сайте присутствуют группы схожих по контенту страниц, вебмастер может указать для каждой страницы группы предпочитаемый (канонический) адрес, который будет участвовать в поиске. Например, страница доступна по двум адресам:
www.examplesite.ru/pages?id=2
www.examplesite.ru/blog
Если предпочитаемый адрес — /blog, это нужно отразить в коде страницы /pages?id=2:
<link rel="canonical" href="http://www.examplesite.ru/blog"/>
Робот считает ссылку с атрибутом rel="canonical" не строгой директивой, а предлагаемым вариантом, который учитывается, но может быть проигнорирован.
Например, робот может не использовать указанный вами адрес, если:
- Документ по каноническому адресу недоступен для индексирования.
- В качестве канонического адреса указывается URL в другом домене или поддомене.
- Вы указали несколько канонических адресов.
Также не рекомендуется создавать цепочки канонических адресов: не должно получаться так, что канонический адрес для example.ru/1 — example.ru/2, в то время как для example.ru/2 указан канонический адрес example.ru/3.