Robots.txt — управление индексацией сайта


На продвижение сайта в поисковой выдаче влияют несколько важных моментов начиная от уникальности его содержания, до тщательного подбора ключевых запросов. Немаловажная роль отводится возможности эффективно управлять индексированием страниц ресурса. Для этой цели и принят общий стандарт в виде текстового файла robots.txt.

Robots.txt — это ключевой элемент управления индексацией веб–ресурса.

Функциональное предназначение robots.txt:

  • разрешение либо запрет групп или отдельных страниц ресурса к индексации.
  • обозначение для поискового робота имени главного домена.
  • указание директории хранения карты сайта.

Для оптимальной раскрутки веб-ресурса перечисленные функции очень важны. Стандартный текстовик robots.txt задает поисковикам определенные правила, управляет индексацией страниц. Правильно прописанные в файле директивы влияют на результат индексации сайта поисковиками в целом: в индексах ресурса исключается многократное дублирование контента, поддерживается должный уровень уникальности и ссылочной целостности.

Настройка robots.txt

Давайте посмотрим как правильно настроить файл robots.txt. Текстовый стандарт наделен несложным синтаксисом и правилами написания. Чтобы создать правильный robots.txt, используется последовательность директив формата:

<Наименование команды>: <Значение>

В основе синтаксической структуры используются команды — User-agent, Disallow, Allow, Sitemap и Host.

Robots.txt — индексация сайта

В значении команды User-agent должно содержаться наименование поискового бота, для которого задаются правила. Например, конструкция User-agent: * означает адресацию правил для всех поисковиков. Если прописываются дополнительные указания для конкретного поисковика, например, Яндекса синтаксис команды следующий: User-agent: Yandex.

В правильно составленном текстовике robots.txt за каждой инструкцией User-agent должен следовать хотя бы один элемент Disallow. Если запреты на индексацию отдельных страниц не планируются, последовательность директив следующая:

User-agent: *
Disallow:

Так весь сайт будет индексировать.

Robots.txt закрыть страницу

В случае необходимости закрыть все страницы ресурса для роботов, в директиве Disallow прописывается запрещающий символ </>.

Другие часто используемые форматы значений запрещающих директив:

  • запрет на доступ к отдельной папке - </имя каталога/>
  • запрет на обращение ко всем одинаково начинающимся наименованиям папок - </имя>.

В запрещающих значения допустимо использование обобщающих символов «*» или «$» — <*.расширение файла>

С помощью директивы Allow можно обозначить доступные ботам элементы в закрытых папках. Например, так:

Allow:/archive/index.html
Disallow: /archive/

Host в файле robots.txt

Указать поисковикам имя основного домена необходимо при помощи команды Host. Например, так:

Host: wiki-web.ru

или так

Host: www.wiki-web.ru

Карта сайта sitemap.xml в robots.txt

Для направления поисковиков к карте сайта используется директива Sitemap.

Пример написания:

Sitemap: http://wiki-web.ru/sitemap.xml

Куда загружать robots.txt

И последний важный штрих: размещается текстовик robots.txt исключительно в корневой папке сайта при помощи FTP или программы Filezilla.


 


Просмотры: 817 | Метки: , , ,