На продвижение сайта в поисковой выдаче влияют несколько важных моментов начиная от уникальности его содержания, до тщательного подбора ключевых запросов. Немаловажная роль отводится возможности эффективно управлять индексированием страниц ресурса. Для этой цели и принят общий стандарт в виде текстового файла robots.txt.
Robots.txt — это ключевой элемент управления индексацией веб–ресурса.
Функциональное предназначение robots.txt:
- разрешение либо запрет групп или отдельных страниц ресурса к индексации.
- обозначение для поискового робота имени главного домена.
- указание директории хранения карты сайта.
Для оптимальной раскрутки веб-ресурса перечисленные функции очень важны. Стандартный текстовик robots.txt задает поисковикам определенные правила, управляет индексацией страниц. Правильно прописанные в файле директивы влияют на результат индексации сайта поисковиками в целом: в индексах ресурса исключается многократное дублирование контента, поддерживается должный уровень уникальности и ссылочной целостности.
Настройка robots.txt
Давайте посмотрим как правильно настроить файл robots.txt. Текстовый стандарт наделен несложным синтаксисом и правилами написания. Чтобы создать правильный robots.txt, используется последовательность директив формата:
<Наименование команды>: <Значение>
В основе синтаксической структуры используются команды — User-agent, Disallow, Allow, Sitemap и Host.
Robots.txt — индексация сайта
В значении команды User-agent должно содержаться наименование поискового бота, для которого задаются правила. Например, конструкция User-agent: * означает адресацию правил для всех поисковиков. Если прописываются дополнительные указания для конкретного поисковика, например, Яндекса синтаксис команды следующий: User-agent: Yandex.
В правильно составленном текстовике robots.txt за каждой инструкцией User-agent должен следовать хотя бы один элемент Disallow. Если запреты на индексацию отдельных страниц не планируются, последовательность директив следующая:
User-agent: *
Disallow:
Так весь сайт будет индексировать.
Robots.txt закрыть страницу
В случае необходимости закрыть все страницы ресурса для роботов, в директиве Disallow прописывается запрещающий символ </>.
Другие часто используемые форматы значений запрещающих директив:
- запрет на доступ к отдельной папке – </имя каталога/>
- запрет на обращение ко всем одинаково начинающимся наименованиям папок – </имя>.
В запрещающих значения допустимо использование обобщающих символов «*» или «$» — <*.расширение файла>
С помощью директивы Allow можно обозначить доступные ботам элементы в закрытых папках. Например, так:
Allow:/archive/index.html
Disallow: /archive/
Host в файле robots.txt
Указать поисковикам имя основного домена необходимо при помощи команды Host. Например, так:
Host: wiki-web.ru
или так
Host: www.wiki-web.ru
Карта сайта sitemap.xml в robots.txt
Для направления поисковиков к карте сайта используется директива Sitemap.
Пример написания:
Sitemap: http://wiki-web.ru/sitemap.xml
Куда загружать robots.txt
И последний важный штрих: размещается текстовик robots.txt исключительно в корневой папке сайта при помощи FTP или программы Filezilla.