Файл robot.txt
Что такое robots.txt и для чего он нужен?
robots.txt располагается в корневом каталоге сайта и служит для описания исключений для роботов поисковых машин. Стандартный поисковый робот перед индексацией сайта проверяет файл по адресу http://www.site.ru/robot.txt. В случае, когда указанный файл существует, робот анализирует его содержимое на предмет запретов к индексации определенных разделов сайта.
Файл robots.txt служит направлением и списком инструкций для поисковых роботов и позволяет оптимизировать продвижение сайта в поисковых системах, отделив разделы и документы на сайте, индексация которых не желательна. В частности это касается поисковой системы Яндекс.
Содержимое robots.txt
Имя файла robot.txt не должно содержать заглавных букв. Записи в файле разделяются пустыми строками, одной или несколькими. В файле robots.txt комментарии начинаются знаком “#”. Строки, которые содержат только комментарии роботами игнорируются и, кроме того, не являются разделителями. Для определения поискового робота, к которому будет привязано конкретное правило, служит строка User-agent. Для описания правил для роботов, которым не составлено отдельное правило применяется параметр «*». Запись User-agent: * в файле robot.txt может быть только одна.
Поле Disallow служит для записи полного или частичного пути к разделу сайта, для которого посещеня поискового робота будут ограничены. Каждая запись в файле robot.txt должна содержать как минимум одно Disallow. Если поле Disallow не заполнено, то есть пустое, роботам разрешается посещение всех каталогов и файлов на сайте.
Примеры robot.txt для сайта www.site.ru
User-agent: Yandex
Disallow: /about/
Disallow: /price.html
# роботам поисковой системы Яндекс запрещается посещать директорию http://site.ru/about/
# и файл http://site.ru/price.html
User-agent: Googlebot
Disallow: /new/print/
# Запрещает индексацию Google http://site.ru/new/print/
User-Agent: *
Disallow: /index.php?action=print
# Для всех роботов, для которых не сделана отдельная запись запрещает посещение
# динамических страниц, которые начинаются с http://site.ru/index.php?action=print
# например: http://site.ru/index.php?action=print &id=11
Поисковой системой Яндекс поддерживается директива Host, которая служит для назначения зеркала
User-agent: Yandex
Disallow: /print/
Host: site.ru
# роботу Яндекс разрешено посещение всех страниц и директорий на сайте, кроме http://site.ru/print/
# зеркалом назначено http://site.ru/
Запретить индексацию сайта целиком можно с помощью подобного файла robots.txt
User-agent: *
Disallow: /
Что следует запретить к индексации
- страницы "версия для печати"
- программные модули, папки скриптов
- сервисные страницы, к примеру, страницу с формой отправки письма для администрации
Однако некоторые пути на сайте не стоит и указывать в файле robot.txt
- Папки и файлы «не для посторонних»
- Папки с административными файлами
Наличие в файле robot.txt подобных путей может породить нездоровый интерес и провоцировать попытки действий, которым рады вы точно не будете. Для таких директорий на сайте лучше использовать альтернативные пути запрета индексации.
Частые ошибки при составлении robot.txt
- Содержание заглавных букв в имени файла - ROBOTS.TXT или Robots.txt
- Размещение файла robots.txt не в корневой директории
- Наличие пустой строки User-agent
- Отсутствие Disallow
- Наличие в поле Disallow регулярных выражений и символов подстановки
- Больше одной строки " User-agent: *"
| Tweet |


