Роботы Google

 

Как удалить содержание из индекса Google (www.google.ru) с помощью robots.txt

Удаление сайта целиком

Чтобы удалить сайт из поисковых систем и запретить всем роботам в дальнейшем его сканировать, разместите в корневом каталоге сервера файл robots.txt следующего содержания:

User-agent: *
Disallow: /

Чтобы удалить сайт только из Google и запретить поисковому роботу Google в дальнейшем его сканировать, разместите в корневом каталоге сервера файл robots.txt со следующим содержанием:

User-agent: Googlebot
Disallow: /

Для каждого порта должен быть создан собственный файл robots.txt. В частности, если используются протоколы http и https, для каждого из них потребуются отдельные файлы robots.txt. Например, чтобы разрешить поисковому роботу Google индексировать все страницы http и запретить сканировать https, файлы robots.txt должны выглядеть следующим образом.

Для протокола http (http://yourserver.com/robots.txt):

User-agent: *
Allow: /

Для протокола https (https://yourserver.com/robots.txt):

User-agent: *
Disallow: /

Примечание. Если Ваш запрос срочный и дождаться следующего сеанса сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического удаления URL. Чтобы запустить этот автоматический процесс, веб-мастер должен сначала создать файл robots.txt и поместить его на соответствующем сайте.

Если файл robots.txt останется в корневом каталоге веб-сервера, в дальнейшем Google не будет сканировать сайт или его каталоги. Если у Вас нет доступа к корневому каталогу сервера, можно поместить файл robots.txt на одном уровне с теми файлами, которые требуется удалить. После того как Вы это сделаете и воспользуетесь системой автоматического удаления URL, сайт будет временно, на 180 дней, удален из индекса Google независимо от того, будет ли удален файл robots.txt после обработки запроса. ( Если оставить файл robots.txt на том же уровне, URL потребуется удалять с помощью автоматической системы каждые 180 дней.)

Удаление части сайта

Вариант 1. Robots.txt

Чтобы удалить каталоги или отдельные страницы сайта, можно поместить файл robots.txt в корневом каталоге сервера. О том, как создать файл robots.txt, рассказывается в Стандарт исключений для роботов. Создавая файл robots.txt, учитывайте следующие моменты. Принимая решение о том, какие страницы сканировать на том или ином хосте, поисковый робот Google действует в соответствии с первой записью в файле robots.txt, где параметр User-agent начинается со слова "Googlebot". Если такой записи нет, выполняется первое правило, в котором User-agent – «*». Кроме того, Google позволяет использовать файл robots.txt более гибко за счет применения звездочек. В шаблонах запрета символ «*» может означать любую последовательность символов. Шаблон может оканчиваться символом «$», который обозначает конец имени.

Чтобы удалить все страницы того или иного каталога (например, "lemurs"), добавьте в файл robots.txt такую запись:

User-agent: Googlebot
Disallow: /lemurs

Чтобы удалить все файлы определенного типа (например, .gif), добавьте в файл robots.txt такую запись:

User-agent: Googlebot
Disallow: /*.gif$

Чтобы удалить динамически создаваемые страницы, добавьте в файл robots.txt такую запись:

User-agent: Googlebot
Disallow: /*?

Вариант 2. Мета-теги

Другой стандарт, более удобный для работы со страницами, предусматривает использование на странице формата HTML мета-тега , запрещающего роботам индексировать страницу. Этот стандарт описан на странице http://robotstxt.org.ru/robotsexclusion.

Чтобы запретить всем роботам индексировать страницу сайта, добавьте в раздел этой страницы следующий мета-тег:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Чтобы запретить индексировать страницу только роботам Google, а остальным разрешить, используйте следующий тег:

<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">

Чтобы разрешить роботам индексировать страницу, но запретить переходить по внешним ссылкам, используйте следующий тег:

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

Примечание. Если Ваш запрос срочный и ждать следующего сканирования Google невозможно, воспользуйтесь автоматической системой удаления URL.. Чтобы запустить этот автоматический процесс, веб-мастер должен сначала вставить в код страницы HTML соответствующие метатеги. После этого каталоги будут временно, на 180 дней, удалены из индекса Google независимо от того, удалите ли Вы файл robots.txt или метатеги после обработки запроса.

Удаление фрагментов (сниппетов)

Фрагмент (сниппет) – это текст, который показывается под названием страницы в списке результатов поиска и описывает содержание страницы.

Чтобы запретить Google выводить фрагменты с Вашей страницы, добавьте в раздел <HEAD> следующий тег:

<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET">

Примечание. При удалении фрагментов удаляются также и сохраненные в кэше страницы.

Примечание. Если Ваш запрос срочный и дождаться следующего сеанса сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического удаления URL. Чтобы запустить этот автоматический процесс, веб-мастер должен сначала вставить в код HTML страницы соответствующие метатеги.

Удаление сохраненных в кэше страниц

Google автоматически создает и архивирует снимок каждой сканируемой страницы. Наличие таких сохраненных в кэше версий позволяет конечным пользователям находить страницы, даже если они недоступны (из-за временной неполадки на сервере, где размещена страница). Пользователи видят сохраненные в кэше страницы в том виде, в каком они были в момент сканирования роботом Google. Вверху страницы выводится сообщение о том, что это сохраненная в кэше версия. Чтобы получить доступ к такой странице, пользователь должен выбрать ссылку «Сохранено в кэше» на странице результатов поиска.

Чтобы запретить всем поисковым системам выводить эту ссылку на Ваш сайт, добавьте в раздел <HEAD> следующий тег:

<META NAME="ROBOTS" CONTENT="NOARCHIVE">

Чтобы запретить выводить ссылку «Сохранено в кэше» только системе Google, а остальным разрешить, используйте следующий тег:

<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">

Примечание. Этот тег удаляет только ссылку «Сохранено в кэше» на соответствующую страницу. Google продолжает индексировать страницу и выводить ее фрагмент.

Примечание. Если Ваш запрос срочный и дождаться следующего сеанса сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического удаления URL. Чтобы запустить этот автоматический процесс, веб-мастер должен сначала вставить в код HTML страницы соответствующие метатеги.

Удаление картинки из системы поиска картинок Google

Чтобы удалить картинку из индекса картинок Google, разместите в корневом каталоге сервера файл robots.txt. ( Если это невозможно, поместите его на уровне каталога).

Пример: Если требуется удалить из индекса Google изображение sobaki.jpg, размещенное на Вашем сайте по адресу www.vash-sajt.ru/kartinki/sobaki.jpg, создайте страницу www.vash-sajt.ru/robots.txt и добавьте на нее следующий текст:

User-agent: Googlebot-Image
Disallow: /images/sobaki.jpg

Чтобы удалить из индекса все имеющиеся на сайте картинки, разместите в корневом каталоге сервера файл robots.txt со следующим содержанием:

User-agent: Googlebot-Image
Disallow: /

Это стандартный протокол, который соблюдает большинство сканеров; он позволяет удалить из индекса сервер или каталог. Дополнительная информация о robots.txt представлена на странице http://robotstxt.org.ru/robotsexclusion

Кроме того, Google позволяет использовать файл robots.txt более гибко за счет использования звездочек. В шаблонах запрета символ «*» может означать любую последовательность символов. Шаблон может оканчиваться символом «$», который обозначает конец имени. Чтобы удалить все файлы определенного типа (например, чтобы оставить картинки в формате .jpg, а в формате .gif удалить), добавьте в файл robots.txt такую запись:

User-agent: Googlebot-Image
Disallow: /*.gif$

Примечание. Если Ваш запрос срочный и дождаться следующего сеанса сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического удаления URL. Чтобы запустить этот автоматический процесс, веб-мастер должен сначала создать файл robots.txt и поместить его на соответствующем сайте.

Если файл robots.txt останется в корневом каталоге веб-сервера, Google и в дальнейшем не будет сканировать сайт или его каталоги. Если у Вас нет доступа к корневому каталогу сервера, можно поместить файл robots.txt на одном уровне с теми файлами, которые требуется удалить. После того как Вы это сделаете и воспользуетесь системой автоматического удаления URL, временно, на 180 дней, будут удалены каталоги, указанные в файле robots.txt, из индекса Google независимо от того, удалите ли Вы файл robots.txt после обработки запроса. ( Если оставить файл robots.txt на том же уровне, URL потребуется удалять с помощью автоматической системы каждые 180 дней.)

Ссылки по теме

Информация о googlebot на сайте Google
Проверка robots.txt через Google SiteMaps
Как удалить содержание из индекса Google?
Анализ файла robots.txt, информация Google