Содержание
Все поисковые роботы, прежде чем сканировать сайт, в первую очередь определяют наличие файла robots.txt.
Robots.txt как правило индивидуален как и все сайты в интернете. Поэтому, чтобы правильно составить robots.txt для WordPress, сначало надо четко представлять его назначение и вникнуть в правила написания инструкций. Простое копирование чужого файла может вообще не подойти для вашего сайта и даже препятствовать его индексации. Продвижение неизбежно только в случае вдумчивого подхода и правильном файле robots.txt.
Назначение файла robots.txt
Robots.txt — текстовый файл, который предназначен для роботов поисковых систем. Файл находится в корне сайта (путь относительно доменного имени /robots.txt
) и содержит инструкции при помощи которых можно:
- запретить индексацию некоторых разделов, отдельных файлов, страниц или сайта целиком
- указать главное зеркало сайта (основной домен).
Инструкции могут быть как для всех роботов сразу, так и для каждой поисковой системы по отдельности.
Как создать robots.txt
Robots.txt можно создать в обычном Блокноте. Заполните его необходимыми инструкциями и загрузите в корневой каталог вашего сайта. Можете проверить правильность обработки инструкций файла robots.txt, с помощью анализатора файла robots.txt.
Директива User-agent
Робот Яндекса поддерживает стандарт описания www.robotstxt.org/wc/norobots.html
с расширенными возможностями.
Перед закачкой определенного пула страниц, робот Яндекса закачивает robots.txt сайта. Если файл не обнаружен или на запрос робота возвращается HTTP-код отличный от 200
, считается, что доступ роботу не ограничен.
В самом robots.txt проверяется наличие записей, начинающихся с User-agent:
, в них ищутся подстроки Yandex
, либо *
(регистр значения не имеет), причем, если обнаружена строка User-agent: Yandex
, директивы для User-agent: *
не учитываются. Если записи User-agent: Yandex
и User-agent: *
отсутствуют, считается, что доступ роботу не ограничен.
Пример файла robots.txt для WordPress
User-agent: *
Allow: /wp-content/uploads
Disallow: /download
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /topic
Disallow: /tag
Disallow: /archive
Disallow: /page
Disallow: /attachment
Disallow: */comments
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: /feed
Disallow: /?feed=
Disallow: /?s=
Disallow: /*utm_
Disallow: */comment-page-*
Disallow: *?replytocom
Clean-param: utm_source
Host: atbliss.ru
User-agent: MediaPartners-Google
Allow: /
Sitemap: //atbliss.ru/sitemap.xml
User-agent:
– указание робота (бота), для которого предназначены нижеуказанные директивы
Disallow:
– запрет доступа робота к некоторым частям сайта или сайту целиком
Sitemap:
– указание пути к карте сайта sitemaps.xml
Host:
– указывается адрес главного зеркала (директиву Host
понимает только робот Яндекса)
В 30-й
строке дается разрешение роботу Mediapartners-Google (AdSense) анализировать страницы, чтобы определить, какие объявления нужно показывать. Робот Mediapartners-Google имеет отдельный доступ к страницам, независимый от других агентов Google. Обратите внимание, что робот AdSense никак не связан с поисковым роботом Google и его работа не влияет на рейтинг вашего сайта в поиске Google.
Вот какие роботы посещают мой блог
Yandex bot
Googlebot
WordPress
Sogou Spider
Google AdSense
Unknown robot (identified by 'crawl')
Unknown robot (identified by 'bot*')
Feedburner
Yahoo Slurp
Feedfetcher-Google
DoCoMo
The World Wide Web Worm
Unknown robot (identified by empty user agent string)
Java (Often spam bot)
MagpieRSS
Unknown robot (identified by hit on 'robots.txt')
BlogPulse ISSpider intelliseek.com
NewsGator Online
The web archive (IA Archiver)
Nutch
MJ12bot
Alexa (IA Archiver)
Speedy Spider
Unknown robot (identified by '*bot')
Jakarta commons-httpclient
Mail.ru bot
BaiDuSpider
W3C Validator
MSNBot
NG 1.x (Exalead)
StackRambler
MSNBot-media
Voyager
GigaBot
Unknown robot (identified by 'robot')
Perl tool
Powermarks
FaceBook bot
SurveyBot
larbin
Netcraft
Aport
Дополнительная информация
- Блокировка и удаление страниц с помощью файла robots.txt
- Блокирование содержания вашего сайта от робота Googlebot
- Какие правила robots.txt поддерживает Яндекс?
- The Web Robots Pages — оригинальный сайт о robots.txt, автор Martijn Koster
- Как работать с файлом robots.txt, частые ошибки и вопросы. Роботы Рунета — это переводы www.robotstxt.org
У меня проблема с индексацией блога Поможет если я изменю файл robots на Ваш
такой вот файл у меня
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
# digg mirror
User-agent: duggmirror
Disallow: /
Sitemap:http://.ru/sitemap.xml
User-agent: Yandex
Crawl-delay: 5
Disallow: /tag
на форумах пишут, что из-за этой штуки Disallow: /category/*/* — робот не видит то, что идет после /category/…..
Какая проблема у вас возникла с индексацией?
Сайту около 3-х месяцев 2 сайта один, на поддомене
howww точка ru
s.howww точка ru
Сначала яндексом проиндексировались, а потом выпали из индексации. только первые две страницы в поиске уже такое больше месяца. Может домен, что то с доменом. Хотя с гуглом всё ок и PR3 незнаю в чем дело. Так же думаю поменять движок вместо вордпрес поставить DLE или полностью отказаться от домена забить другой не знаю, что лучше сделать.
Яндекс проиндексировал 3 страницы, Гугл — 1070. Яндекс.Вебмастер вообще показывает, что проиндексировано всего 2 страницы.
Если в течение месяца ни одна страница не была проиндексирована Яндексом, значит сайт находится под фильтром.
Я выборочно проверил одну страницу (howww.ru/video-video/kak-vybrat-xosting.html) на уникальность контента. Уникальность текста 76%. Адвего говорит, что уникальность текста низкая. Но директивой robots.txt индексация этой страницы разрешена.
Я полагаю, что на всем сайте неуникальный контент. А как с остальными страницами обстоят дела?
И еще, у вас в роботс, не указано основное зеркало.
Навигация на блоге непонятная и неудобная.
Вордпресс тут не причем.
У меня токаяже ерунда в гугле PR3 страниц тож по убавилось а в яндексе было 26 страниц и тиц был 20 а осталась одна страница и тиц меньше 10 ! че такое не понятно
Документ запрещен в файле robots.txt 91
Документ содержит мета-тег noindex 34
Документ не является каноническим 24
и еще одно не понятно robots его вообще веб мастер загрузить не может!
ктонибуть что нибуть подсказать может!
Если в Яндексе осталась одна страница, значит сайт под фильтром АГС.
Если robots.txt невозможно загрузить, значит он некорректный или отсутствует.
Контент не уникальный.
Что то скопировано, переписано. Здесь конечно нечего сказать не могу. Однако сайт на DLE. с не уникальным контентом. Где страницы Добро пожаловать, Приобретение и оплата скрипта, Шаблоны для DataLife Engine специально мною удалены небыли. Страницы с полностью с не уникальным контентом. Были просканированны Яндексом и находятся в поиске. Страницы другого сайта на народе ру также, не содержащие Никого уникального контента находятся в поиске уже, не один год. Причём все до одной подчёркиваю с не уникальным контентом. Проблемы у меня только с вордпрес и юкоз. Хотя на юкоз я размещал именно уникальный контент. Хочу удалить сайт подождать месяц и разместить, на этом домене сайт на DLE. — Посмотрю, что получится домен просто жалко бросать. Хотя вот гугл проиндексировал и даже — PR3
Какой смысл тратить время и размещать неуникальный контент? Это вопрос времени. Рано или поздно Яндекс выбросит страницы с копипастом или даже весь сайт целиком из индекса, наложив на него фильтр АГС.
Чем отличается 1) Disallow: */comments, от Disallow: /comments
2) Disallow: */feed от Disallow: /feed и от Disallow: /?feed=
Что такое:
Disallow: */trackback
Disallow: /?s=
Disallow: /*utm_
Disallow: */comment-page-*
Disallow: *?replytocom
Clean-param: utm_source
Непонятно ничего.
Спасибо за вопрос. Мне приходила мысль добавить комментарии. Так и сделаю. Но, я смогу это сделать когда немного освобожусь.
спасибо! буду разбираться, по скольким сайто лажу везде свои версии роботса и не совсем понятно зачем комментарии убирать от индексации ведь это тоже контент
Комментарии доступны для индексации по УРЛ осноной страницы. А каждый коммент создается с новым УРЛ. При этом дублируется весь предыдущий контент и создается новая страница, которая отличается несколькими строчками комента. И так всякий раз, после добавления нового коммента. В итоге: представляете как расплодится основной контент?
не знаю уже чему верить, где-то читал, что новые версии CMS WordPress уже не дублируют основной урл с ЧПУ и никаких манипуляций с robots.txt проводить не надо
Тогда следите за своим блогом — смотрите, что попадает в индекс поисковой системы.
По Вордпрессу могу сказать, что все же лучше закрывать от индексации. У меня как раз плачевная ситуация с этим вышла, сайт попал под фильтр. Есть предположения, что именно из-за дублей. Недавно закрыл в роботсе тэги и категории… Посмотрим, что из этого получится.
подскажите как закрыть файлы .txt в директориии где лежат и файлы .html. Это коментарии в текстовых файлах которые подгружаются инклудом на страницу сайта. А то вроде получается дублирование.
Используйте следующую директиву:
Disallow: /*.txt # запрещает индексирование всех текстовых файлов
Здесь указан весь сайт. Если нужно запретить индексирование только в определенной папке, то укажите путь к ней.
спасибо и с наступающим новым годом!!!!!!
Пожалуйста. И вас, с наступающим Новым годом!
правильная настройка робота для ворлдпресcа на примере моегоhttp://hard4news.ru
——————————
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Host: hard4news.ru
User-agent: *http://hard4news.ru/sitemap.xml
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Sitemap:
User-agent: Mediapartners-Google
Какой смысл дублировать те же инструкции для Яндекса?
Вообще, то то, что указано в Гугле и на других блогах, — неверный вариант и есть ошибки. У меня в Гугле для вебмастера всегда ошибки выскакивали по поводу робота.
А что нам до того, что написано у кого-то в блоге? Главное, что у себя было правильно
Файл robots.txt в предназначен для запрета индексирования ненужных страниц и указания основного зеркала. Каждое правило, которое прописано в файле robots.txt можно проверить с помощью инструментов Гугла и Яндекса. И никаких ошибок не должно быть. Если есть — надо исправлять.
Люди помогите для моего сайта который я заказал у одного знакомого своего он мне сделал вот такой robots.txt и поставил на индексацию его 25,08,2012 года и он до сих пор сегодня кстати 8 августа 2012 года и он еще не индексировается пример выкидываю вам на растерзание
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-
Disallow: *?s=
Disallow: *?attachment_id=
Disallow: */feed
Disallow: /xmlrpc.php
Sitemap:http://bus-arenda.com.ua/sitemap.xml
Host: bus-arenda.com.ua
Не знаю что и делать напишите мне все на [email protected] или в контакте id99137670 c уважением ко всем жду ответа
Файл robots.txt в принципе разрешает индексирование контента сайта. Я проверил несколько страниц, к ним доступ поискового робота разрешен.
Но, проблема в том, что тексты неуникальны. Например, страница Музей авиатехники имеет уникальность 38.89%. А должна быть не менее 95%.
Решение — переписать все тексты.
Спасибо за отзыв а можно тогда вопрос как смотреть уникальный текст или не уникальный если не трудно отпишитесь кому не трудно [email protected] или в контакте id99137670 c уважением ко всем жду ответа
В моем блоге есть две статьи «Проверка текстов на уникальность» и «Как проверить уникальность текста». Можете прочесть их. Если что-то будет непонятно, на тех же страницах, пожалуйста, — пишите в комментариях.
Помогите пожалуйста разобраться.
Как я могу создать robot.txt? Где-то можно скачать стандартный текст, а потом его подготовить для собственного сайта?
Я совсем запуталась.
Robots.txt можно создать в обычном Блокноте. А что в него писать зависит от сайта и потребностей.
Доброго времени суток!
Подскажите пожалуйста
как провильно закрыть такие архивные страницы
/2012/01/08/ пример
т.е. начинается с года и там далее месяц число
я сделал так
Disallow: /2012/
Disallow: /2011/
Disallow: /2010/
Disallow: /2009/
Disallow: /2008/
Disallow: /2007/
Disallow: /2006/
закроют ли они от индексации
например такие страницы как
/2012/10/05/
и т.д.
Вместо перечисления всех годов, достаточно прописать:
Disallow: /20*
Эта директива будет блокировать доступ к страницам, начинающимся с
'/20'
То есть доступ к архиву
'/2012/10/05/'
робот иметь не будет.Спасибо за быстрый ответ!
я боюсь что в таком варианте может не войти в будущем в индексацию и я забуду
а в таком варианте /2012/* закроет?
Директива
Disallow: /2012/*
закроет доступ ко всем страницам, начинающимся с/2012/
.спасибо большое за ответ
Добавляю к предыдущему: Гугл индексирует нормально.
Ирина.
Добрый день!
Если можно, то я тоже хочу спросить ваш совет. Яндекс мне выдал при анализе сайта : Страницы запрещены к индексированию вебмастером или не существуют
HTTP-статус: Ресурс не найден (404) ? 38
Документ запрещен в файле robots.txt ? 364
Документ содержит мета-тег noindex ? 84
Документ является неканоническим ? 7
А вот и мой Robots.txt
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
User-agent:-Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host:uyutnidom.com
Sitemap:http://uyutnidom.com/sitemap.xml.gz http://uyutnidom.com/sitemap.xml
Sitemap:
Я что называется чайник в этом деле, поэтому и нуждаюсь в вашей помощи.
хорошая статья)
Здравствуйте.
Вчера закрыл в роботе от индексирования теги, вечером робот зашел но всеровно теги в поиске.
Что не так сделал?
Если можно посмотрите мой роботс.
Нужно ли закрывать архив?
Спасибо.
Как-то все сложно. Можно обойтись в сайтостроении без этих заморочек с Роботсом?
Если хотите достичь хороших результатов, то без грамотно составленного роботс далеко не уйти.