Роботы Mail.ru

 

Поиск go.mail.ru

Вся основная информация по роботам поиска go.mail.ru находятся на странице информации для вебмастеров. Ниже приведены основные выдержки по основным вопросам индексирования.

Как отображается робот в логах сервера

Поисковый робот компании Mail.Ru использует следующие User-Agent:

  • Mozilla/5.0 (compatible; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots);
  • Mozilla/5.0 (compatible; Mail.RU_Bot/Fast/2.0; +http://go.mail.ru/help/robots).

Как проверить, что робот от go.mail.ru

Для того чтобы проверить, что робот действительно принадлежит Mail.Ru, необходимо выполнить следующее:

  1. По логам веб-сервера найдите ip-адрес для интересующего вас user-agent.
  2. Затем, сделав обратный dns-запрос для данного ip-адреса (например, команда host в *nix-системах) можно определить его хост. Все имена хостов, с которых выполняют запросы наши роботы, оканчиваются на mail.ru.

В случае несовпадения хоста это может значить, что этот робот использует поддельный user-agent и не принадлежит Mail.Ru.

Директива User-agent

Робот Mail.Ru использует только записи с ‘User-agent: Mail.Ru‘ и ‘User-agent: *’ (* = все роботы). Причем  запись с ‘User-agent: Mail.Ru‘ имеет приоритет перед записью ‘User-agent: *’. Таким образом, если даны указания и роботу Mail.Ru, и общие для всех роботов, то будут использованы первые. Если не заданы ни та, ни другая записи, то считается, что робот не имеет ограничений для данного сайта.

Директива Host

Директивой можно указать роботу главный сайт, в том случае если вы используете сайты-зеркала. Значением в данной строке выступает доменное имя. Для поддержания формата файла robots.txt директива должна идти внутри записи, начинающейся с User-agent.

Пример:

User-agent: *
Disallow: # обязательная для каждой записи строка с директивой Disallow
Host: www.main_host.ru

Запрет на индексирование сайта

Индексирование сайта может быть запрещено по нескольким причинам:

  • Страницы содержат ошибки, вследствие чего информацию, размещенную, на сайте, невозможно проиндексировать.
  • В robots.txt запрещено индексирование как отдельных страниц, так и сайта в целом.
  • Используются недобросовестные приемы продвижения сайта в поисковых системах.

Удаление сайта

Для исключения сайта или его отдельных страниц  из поиска Mail.ruдалите эти страницы со своего сайта или запретите их индексирование в robots.txt. Не стоит забывать, что в случае запрета на индексирование, это не гарантирует, что они не будут находиться в поиске, поскольку они могут искаться по ссылкам со сторонних веб-ресурсов.