Разбираем файл robots.txt и рассматриваем его на примерах

4.8333333333333 1 1 1 1 1 1 1 1 1 1 Рейтинг 4.83 (3 Голосов)

Robots.txt для seoС помощью Robots.txt вы сможете задавать рекомендации поисковым роботам. Устанавливать инструкции о необходимости индексировать страницу, раздел или участок сайта соответствующий правилам фильтра, либо же наоборот, не индексировать. Необходимо помнить о правильном заполнении файла, незначительная ошибка может выкинуть часть вашего сайта (а то и весь) из индекса поисковых систем.

Назначение файла robots.txt - исключение из поисковой выдачи технических страниц, дублей, страниц не предназначенных для просмотра пользователям. Файл robots.txt играет важную роль в поисковой оптимизации сайта.

Расположение файла robots.txt на сайте

Файл robots.txt устанавливается в папку корневой директории домена и имеет вид http://example.com/robots.txt и распространяется только на самого себя и вложенные папки.

Расположение файта robots.txt на сайте

 

Поисковый робот считает, что доступ к содержимому сайта открыт (разрешает индексацию всего сайта) если файл robots.txt:

  1. Превышает размер 32 КБ.
  2. Отсутствует в корневой директории сайта
  3. Не является текстовым (файл должен содержать обычный текст в кодировке UTF-8).
  4. Недоступен, сервер при запросе поискового робота дает ответ отличный от HTTP-кода статус 200 OK. 

 

Правила, они же директивы, они же инструкции файла robots.txt
 User-agent  указывает на робота которому необходимо просмотреть инструкции описанные под ним.
 Allow  разрешение на индексирование указанной страницы.
 Disallow  запрет на индексирование указанной страницы.
 Sitemap  сообщает роботам, что все URL сайта, обязательные для индексации, находятся по адресу http://site.ua/sitemap.xml
 - Sitemap: http://example.com 
 - Sitemap: https://example.com
 для стандартного протокола HTTP
 для защищенного протокола HTTPS
 Host  сообщает роботу Яндекса, какое из зеркал сайта стоит учитывать для индексации.
 - Host: example.com
 - Host: https://example.com
 для стандартного протокола HTTP (без указания http://)
 для защищенного протокола HTTPS
 Crawl-delay  время в секундах между запросами поискового робота, производится для снижения разовой нагрузки сервера во время обхода. 

 

Знаки при составлении robots.txt:

  1. Знак доллара «$» – обозначает конец строки;
  2. Слэш «/» – соответствует корневому каталогу и всем URL более низкого уровня;
  3. Звездочка «*» – означает любую последовательность символов в файле, от 0 или более, до плюс бесконечности;
  4. Решетка «#» – комментирование текста, всё что после # будет игнорироваться. Данные комментарий может быть использован как для всей строки, так в конце строки после директив.

 *Каталоги и имена файлов чувствительны к регистру: «catalog», «Catalog» и «CATALOG» – это всё разные директории для поисковых систем.

 

Примеры составления файла Robots.txt

 

Пример самого простого файла robots.txt (allow all) - индексировать весь сайт 

User-agent: *
Disallow: 

Host: example.com
Crawl-delay: 4
# комментарий может быть в любом месте начала строки

Sitemap: http://example.com/sitemap.xml   # так же можно оставлять комментарий и после директивы

User-agent: - правило текущего блока распространяется для (*) всех поисковых роботов
Disallow: - закрыть сайт от индексации, ( ) - здесь нет никаких обозначений, значит ничего не запрещено, разрешено все.
Host - (robots host) главное зеркало сайта находится по адресу http://example.com
Crawl-delay - время между запросами поискового робота во время обхода 4 сек.
Sitemap - (robots sitemap) действующая карта сайта находится по адресу http://example.com/sitemap.xml

Пример простого файла robots.txt - не индексировать весь сайт

User-agent: *
Disallow: /*

Host: example.com

Sitemap: http://example.com/sitemap.xml 

Тут все тоже самое что в предыдущем примере кроме:  Disallow: - запретить индексацию сайта (/) - корень сайта http://example.com/ , (*) - все последующие символы, включая папки и вложения.

Полезно для сайтов на стадии разработки, что бы роботы не проиндексировали много чего ненужного, а ненужного будет очень много. Главное при запуске сайта не забыть все вернуть на место.

Пример составления URL в Robots.txt

User-agent: *
Allow: /*
Disallow: /administrator/
Disallow: /searchword*
Disallow: /*other$

Host: example.com

Allow: - разрешить, /* - все кроме:
1 - Disallow: (/) - http://example.com/ , administrator/ - папка administrator (http://example.com/administrator/),
и кроме:
2 - Disallow: (/) - http://example.com/ , (searchword) - определенный набор текста/символов, (*) - все возможные символы,
и еще кроме:
3 - Disallow: (/) - http://example.com/ , (*) - все возможные символы, (other$) - текст other находящийся в конце строки.

http://example.com/searchwordht/index.php - url запрещен к индексации, сработало 2-е запрещающее правило, все условия соблюдены.
http://example.com/administrator/ - url запрещен к индексации, сработало 1-е запрещающее правило, все условия соблюдены.
http://example.com/info/administrator/ - url разрешен к индексации, не одно из запрещающих правил не сработало.
http://example.com/35tsearchword/text.txt - url разрешен к индексации, не одно из запрещающих правил не сработало.
http://example.com/info/other/index.php  - url разрешен к индексации, не одно из запрещающих правил не сработало.
http://example.com/info/allother - url запрещен к индексации, сработало 3-е запрещающее правило, все условия соблюдены.

 

А вот так выглядит наша проверка правильности составления файла Robots.txt при помощи webmaster.yandex.ru/tools/robotstxt/

Вводим содержимое нашего robots.txt Ниже вводим URL страниц для проверки
Страница проверки robots.txt в Яндексе Проверка индексации URL страниц в Яндексе

 

 В Гугл вебмастере тоже есть инструмент для проверки robots.txt google.com/webmasters, но для доступа к нему требуется быть авторизованным пользователем, а так же иметь сайт с подтвержденными правами. Лучше конечно пользоваться Яндекс проверкой, с более удобным функционалом, но и про Гугл забывать не стоит.

Структура файла инструкций robots.txt для сайта.

user-agent: a
disallow: /c

user-agent: b
disallow: /d

user-agent: e
user-agent: f
disallow: /g

Host:
Sitemap:

 P.S. 
Перед изменением информации в robots txt не забывайте делать архивную копию файла.