Файл Robots.txt как основной помощник для запрета и открытия индексации страниц сайта роботами поисковых систем Гугл, Яндекс, Рамблер и т.д.


Файл Robots.txt - блог Guland.biz

При самостоятельном продвижении и внутренней оптимизации сайта необходимо не забывать, что кроме создания уникального контента или подбора запросов для составления семантического ядра, еще важным этапом является индексация сайта — в этой статье я навел способы ускорения индексации страниц проекта или в целом ресурса, а сейчас более подробно распишу о главном инструменте – файле Robots.txt.

Надо всегда помнить, что не все содержимое можно отдавать на съедение роботам, некоторые файлы и папки лучше скрывать от индексации.

Общая информация

Сам по себе файл robots.txt — это текстовый файл, который размещают в корне сайта и содержит необходимые инструкции для поисковиков. Поэтому первым делом, что ищут роботы, придя на ваш ресурс, это как раз данный файл в корневом каталоге домена. Для чего? Чтобы знать какие разделы сайта запрещены роботам. Даже если в Вашем случае разрешено все (что очень не рекомендуется!) такой файл желательно все равно создавать.

По сколько файл текстовый, то для его создания или редактирования можно использовать обыкновенный Блокнот (Notepad). После написания файла robots.txt (написан должен быт в нижнем регистре) сохраните его в корневую папку, после чего он будет доступен по адресу: http://site.com/robots.txt. Кстати Вы можете просматривать таким образом файл robots любого сайта и выбрать для себя наиболее приемлемый, поскольку для разных движков и файл будет отличаться.

Наглядная визуализация

Графический пример работы robots.txt

Правила написания robots.txt

Синтаксис написания файла не сложный с помощью специальных директив: User-agent, Allow, Disallow, Sitemap, Host.

Сам файл может быть пустым, в таком случае поисковому роботу разрешается индексирование всего сайта. Но по правилам необходимо после записи «User-agent» прописывать хотя бы одну директиву «Disallow».

Директива User-agent содержит название поискового робота, благодаря чему можно настроить под каждую поисковую систему отдельно.

К примеру для Google: User-agent: googlebot

Если желаете, чтобы Ваш ресурс посетили все боты: User-agent: *

Каждый робот имеете свое название, привожу список самых популярных поисковых систем:

Google http://www.google.com Googlebot
Яндекс http://www.ya.ru Yandex
Рамблер http://www.rambler.ru StackRambler
Мэйл.ру http://mail.ru Mail.Ru
Alexa http://www.alexa.com ia_archiver
Aport http://www.aport.ru Aport
Yahoo http://www.yahoo.com Yahoo Slurp
Ask http://www.ask.com Teoma
AOL http://www.aol.com Slurp
Live http://www.live.com MSNBot

Директива Disallow необходима для данного робота, чтобы разрешить ему индексирование какого либо файла или папки.

Пример разрешающий проводить индексацию поисковым роботам:

User-agent: *
Disallow:

Следующий пример запрещает индексировать сайт всем поисковым ботам:

User-agent: *
Disallow: /

Если Вам необходимо закрыть конкретную страницу от индексирования:

User-agent: *
Disallow: /stranitsa.html

Для блокировки каталогов и всего их содержимого:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Но не допустите ошибку, если не поставите «/» после названия папки, к примеру сделаете так:

User-agent: *
Disallow: /images

то начинающиеся с символов «image» будут запрещены все файлы и каталоги.

Директива Allow работает прямо противоположно к Disallow.


Директива Host добавляется для указания главного зеркала вашего сайта:

User-agent: Google
Disallow:
Host: site.com

или:

User-agent: Google
Disallow:
Host: www.site.com

Директива Sitemap – карта сайта – указывает на расположение XML-карты сайта:

Sitemap: http://site.com/sitemap.xml

В том случае если в Вашем ресурсе идет дублирование страниц (чаще всего такая ситуация встречается в блогах) и необходимо эти страницы изъять из индексации вставляйте МЕТА-тег Robots в тег «HEAD»:

<html>
<head>
<meta name=»robots» content=»noindex, nofollow»>
<title>…</title>
</head>

В этом случае все поисковые роботы любой системы забудут о существовании этих страниц и в поисковики не будут попадать дублирующие страницы, что могло б сказаться негативно при продвижении.

Проекты которые создаются с помощью CMS имеют огромное количество файлов необходимы в работе но не несут в себе никакой информации. Необходимо запретить их индексацию, по причине потере времени на проверку ненужного мусора, вместо обязательных страниц.

Правильный файл robots.txt

Так как мой блог создан с помощью WordPress, то опишу свой пример файла. Вообще то сам Вордпресс создает robots.txt автоматически, но упускает много нужного.

User-agent: *
Disallow: /cgi-bin # классика…
Disallow: /? # все параметры запроса на главной
Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s= # поиск
Disallow: *&s= # поиск
Disallow: /search # поиск
Disallow: /author/ # архив автора
Disallow: *?attachment_id= # страница вложения. Вообще-то на ней редирект…
Disallow: */trackback
Disallow: */feed # все фиды
Disallow: */embed # все встраивания
Disallow: */page/ # все виды пагинации
Allow: */uploads # открываем uploads
Allow: /*/*.js # внутри /wp- (/*/ — для приоритета)
Allow: /*/*.css # внутри /wp- (/*/ — для приоритета)
Allow: /wp-*.png # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д.
#Disallow: /wp/ # когда WP установлен в подкаталог wp

Host: site.ru

Sitemap: http://site.ru/sitemap.xml


Как правильно настроить файл robots.txt (видео)


Понравилась статья? Пожалуйста, оцените и поделитесь:


1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд
Загрузка...

Вам также будет интересно


Добавьте комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *