Привлечение новых клиентов, быстрый и прогнозируемый результат Привлечение целевых посетителей - клиентов на сайт, долговременный эффект PR кампании в Интернете
от 8 000 руб от 10 000 руб от 50 000 руб
Заявка на услуги:
Мы рассчитаем и вышлем Вам коммерческое предложение на услуги:

Специалист On-line:

453-442-055




Интернет-партнеры:

Google - поисковая система

Система размещения контекстной рекламы на сайтах-партнерах - Begun
Сертифицированное агентство от Яндекс в Екатеринбурге

Файл robot.txt


Что такое robots.txt и для чего он нужен?

robots.txt располагается в корневом каталоге сайта и служит для описания исключений для роботов поисковых машин. Стандартный поисковый робот перед индексацией сайта проверяет файл по адресу http://www.site.ru/robot.txt. В случае, когда указанный файл существует, робот анализирует его содержимое на предмет запретов к индексации определенных разделов сайта.

Файл robots.txt служит направлением и списком инструкций для поисковых роботов и позволяет оптимизировать продвижение сайта в поисковых системах, отделив разделы и документы на сайте, индексация которых не желательна. В частности это касается поисковой системы Яндекс.

Содержимое robots.txt

Имя файла robot.txt не должно содержать заглавных букв. Записи в файле разделяются пустыми строками, одной или несколькими. В файле robots.txt комментарии начинаются знаком “#”. Строки, которые содержат только комментарии роботами игнорируются и, кроме того, не являются разделителями. Для определения поискового робота, к которому будет привязано конкретное правило, служит строка User-agent. Для описания правил для роботов, которым не составлено отдельное правило применяется параметр «*». Запись User-agent: * в файле robot.txt может быть только одна.

Поле Disallow служит для записи полного или частичного пути к разделу сайта, для которого посещеня поискового робота будут ограничены. Каждая запись в файле robot.txt должна содержать как минимум одно Disallow. Если поле Disallow не заполнено, то есть пустое, роботам разрешается посещение всех каталогов и файлов на сайте.  

Примеры robot.txt для сайта www.site.ru

User-agent: Yandex
Disallow: /about/
Disallow: /price.html
# роботам поисковой системы Яндекс запрещается посещать директорию http://site.ru/about/
# и файл http://site.ru/price.html

User-agent: Googlebot
Disallow: /new/print/
# Запрещает индексацию Google http://site.ru/new/print/

User-Agent: *
Disallow: /index.php?action=print
# Для всех роботов, для которых не сделана отдельная запись запрещает посещение
# динамических страниц, которые начинаются с http://site.ru/index.php?action=print
# например: http://site.ru/index.php?action=print &id=11

Поисковой системой Яндекс поддерживается директива Host, которая служит для назначения зеркала

User-agent: Yandex
Disallow: /print/
Host: site.ru
# роботу Яндекс разрешено посещение всех страниц и директорий на сайте, кроме http://site.ru/print/
# зеркалом назначено http://site.ru/

Запретить индексацию сайта целиком можно с помощью подобного файла robots.txt

User-agent: *
Disallow: /

Что следует запретить к индексации

  • страницы "версия для печати"
  • программные модули,  папки скриптов
  • сервисные страницы, к примеру, страницу с формой отправки письма для администрации 

Однако некоторые пути на сайте не стоит и указывать в файле robot.txt

  • Папки и файлы «не для посторонних»
  • Папки с административными файлами

Наличие в файле robot.txt подобных путей может породить нездоровый интерес и провоцировать попытки действий, которым рады вы точно не будете. Для таких директорий на сайте лучше использовать альтернативные пути запрета индексации.

Частые ошибки при составлении robot.txt

  • Содержание заглавных букв в имени файла - ROBOTS.TXT или Robots.txt
  • Размещение файла robots.txt не в корневой директории
  • Наличие пустой строки User-agent
  • Отсутствие Disallow
  • Наличие в поле Disallow регулярных выражений и символов подстановки
  • Больше одной строки " User-agent: *"