Robots.txt

Файл robots.txt – это текстовый файл, в котором содержатся специальные инструкции, регулирующие поведение поисковых систем. Они могут быть:

  • Разрешающие и запрещающие индексирование страниц или их разделов. Обычно запрет касается результатов поиска внутри сайта, поскольку это может приводить к дублированию данных, полученных во время поиска, и, как следствие, ухудшению ранжирования ссылки.
  • Определяющие очередность. Первыми подлежат индексации разделы, которые чаще обновляются.
  • Указывающие на правильное дублирование сайта с другим именем домена – так называемое зеркалирование.
  • Рекомендующие определенные временные рамки для поисковой деятельности робота. Например, можно установить интервал между окончанием индексации одной страницы и началом работы со следующей.

Важно знать, что инструкция никаким образом не регулирует обработку гиперссылок на ресурс, расположенных на сайтах-донорах.

Способы считывания информации из файла robots.txt и ее обработки у различных поисковых систем могут отличаться. Хотя для каждой конкретной системы можно прописать отдельные указания, общий порядок оформления файла одинаков для всех случаев.

Алгоритм создания

Файл с указанным расширением – простой текстовый документ. Он создается с помощью обычного блокнота, программ Notepad или Sublime, а также любого другого редактора текстов. Важно, что в его названии должен быть нижний регистр букв – robots.txt.

Также существует ограничение по количеству символов и, соответственно, размеру. Например, в Google максимальный вес установлен как 500 кб, а у Yandex – 32 кб. В случае их превышения корректность работы может быть нарушена.

Создается документ в кодировке UTF-8, и его действие распространяется на протоколы HTTP, HTTPS, FTP. 

При написании содержимого файла запрещается использование кириллицы. Если есть необходимость применения кириллических доменов, необходимо прибегать к помощи Punycode. Кодировка адресов отдельных страниц должна происходить в соответствии с кодировкой структуры сайта, которая была применена.

После того как файл создан, его следует запустить в корневой каталог. При этом используется FTP-клиент, проверяется возможность доступа по ссылке https://site.com./robots.txt и полнота отображения данных.

Важно помнить, что для каждого поддомена сайта оформляется свой файл с ограничениями.

Основные директивы

Примечательно, что инструкции файла носят рекомендательный, а не обязательный характер. Поэтому у него существует вероятность быть проигнорированным поисковиками.

Различают такие установки файла:

  • Allow. Именно он служит разрешением индексации целого сайта или его составляющих – страниц, разделов, категорий или даже отдельно взятых файлов. По умолчанию для работы поисковиков открыт целиком весь сайт.
  • Disallow. Располагается после предыдущей директивы и не разрешает такую функцию в определенных участках сайта. Инструмент необходим, чтобы не перегружать поиск работой со страницами-дубликатами. К ним относится сортировка товаров или страницы печати.
  • User-agent. Определяет круг роботов, для работы которых прописаны директивы. Чтобы не перечислять все поисковики, которых известно более трехсот, можно поставить символ «*». Он не ограничивает данный круг.
  • Sitemap. Содержит полный путь к карте сайта в XML-формате. Важно проверить, чтобы адрес был указан верно. Робот произведет переработку данных и запомнит необходимый путь. После этого при каждом проходе он будет анализировать изменения, которые были внесены, и быстрее обновлять информацию в поисковых базах данных.
  • Host. Указывает главное зеркало данного сайта – идентичный или наиболее приближенный к нему ресурс, который будет главным для работы. Это позволяет избежать дублирования сайта в индексе страниц и появления дубликатов в выдаче. Важно, что эта директива позволяет указать только одну ссылку. Даже если ввести несколько, использоваться будет только первая из них. Обычно адрес прописывается без приставки «https://», исключением являются сайты, которые работают на HTTPS.
  • Clean-param. Применяется только для Yandex. Выполняет своеобразную очистку адресов ссылок от динамических параметров при условии, что они не влияют на содержимое страниц. Такими могут быть идентификаторы пользователей или данные о рефералах.
  • Crawl-delay. Используется исключительно для снижения нагрузки на сайт со слабым сервером. При этом между работой с разными страницами роботам предлагаются временные перерывы, указанные в секундах. Google такие ограничения не признает.
  • /. Символ указывает, какую именно часть предлагается закрыть от системы. Одинарный слеш указывает на весь сайт, двойной – для отдельной директории, например, /catalog/.
  • *. По умолчанию говорит об отсутствии ограничений.
  • $. Символ отменяет действия, прописанные по умолчанию.
  • #. После этого знака в файле прописываются примечания. Они не будут учитываться до новой группы директив, расположенной после знака пустого перевода строки.

Проверка

Оценить правильность созданного документа robots.txt можно с помощью специальных проверочных ресурсов:

  • Анализ robots.txt. – при работе с Yandex.
  • robots.txt Tester – для Google.

Важно помнить, что неправильно созданный или прописанный документ может являться угрозой для посещаемости и ранжирования сайта.

Выводы

Инструкция, прописанная в текстовом документе robots.txt. важна для процесса оптимизации любого ресурса. Ее грамотное оформление за счет экономии времени на работу с дублирующими и пустыми страницами повышает общую скорость индексации сайта. Это, в свою очередь, существенно влияет на его успешное продвижение.

Кроме того, личная информация пользователей, которая не должна быть доступна для посторонних, с помощью этого инструмента с большей вероятностью не попадет в выдачу.