Robots.txt для WordPress

robots.txt для WordPressВсе поисковые роботы, прежде чем сканировать сайт, в первую очередь определяют наличие файла robots.txt.

Robots.txt как правило индивидуален как и все сайты в интернете.  Поэтому, чтобы правильно составить robots.txt для WordPress, сначало надо четко представлять его назначение и вникнуть в правила написания инструкций. Простое копирование чужого файла может вообще не подойти для вашего сайта и даже препятствовать его индексации. Продвижение неизбежно только в случае вдумчивого подхода и правильном файле robots.txt.

Назначение файла robots.txt

Robots.txt — текстовый файл, который предназначен для роботов поисковых систем. Файл находится в корне сайта (путь относительно доменного имени /robots.txt) и содержит инструкции при помощи которых можно:

  • запретить индексацию некоторых разделов, отдельных файлов, страниц или сайта целиком
  • указать главное зеркало сайта (основной домен).

Инструкции могут быть как для всех роботов сразу, так и для каждой поисковой системы по отдельности.

Как создать robots.txt

Robots.txt можно создать в обычном Блокноте. Заполните его необходимыми инструкциями и загрузите в корневой каталог вашего сайта. Можете проверить правильность обработки инструкций файла robots.txt, с помощью анализатора файла robots.txt.

Директива User-agent

Робот Яндекса поддерживает стандарт описания www.robotstxt.org/wc/norobots.html с расширенными возможностями.

Перед закачкой определенного пула страниц, робот Яндекса закачивает robots.txt сайта. Если файл не обнаружен или на запрос робота возвращается HTTP-код отличный от 200, считается, что доступ роботу не ограничен.

В самом robots.txt проверяется наличие записей, начинающихся с User-agent:, в них ищутся подстроки Yandex, либо * (регистр значения не имеет), причем, если обнаружена строка User-agent: Yandex, директивы для User-agent: * не учитываются. Если записи User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.

Статья по теме:  Индекс Google для мобильных устройств

Пример файла robots.txt для WordPress

User-agent: *
Allow: /wp-content/uploads
Disallow: /download
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /topic
Disallow: /tag
Disallow: /archive
Disallow: /page
Disallow: /attachment
Disallow: */comments
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: /feed
Disallow: /?feed=
Disallow: /?s=
Disallow: /*utm_
Disallow: */comment-page-*
Disallow: *?replytocom
Clean-param: utm_source
Host: atbliss.ru
User-agent: MediaPartners-Google
Allow: /
Sitemap: //atbliss.ru/sitemap.xml

User-agent: – указание робота (бота), для которого предназначены нижеуказанные директивы

Disallow: – запрет доступа робота к некоторым частям сайта или сайту целиком

Sitemap: – указание пути к карте сайта sitemaps.xml

Host: – указывается адрес главного зеркала (директиву Host понимает только робот Яндекса)

В 30-й строке дается разрешение роботу Mediapartners-Google (AdSense) анализировать страницы, чтобы определить, какие объявления нужно показывать. Робот Mediapartners-Google имеет отдельный доступ к страницам, независимый от других агентов Google. Обратите внимание, что робот AdSense никак не связан с поисковым роботом Google и его работа не влияет на рейтинг вашего сайта в поиске Google.

Вот какие роботы посещают мой блог

Yandex bot

Googlebot

WordPress

Sogou Spider

Google AdSense

Unknown robot (identified by 'crawl')

Unknown robot (identified by 'bot*')

Feedburner

Yahoo Slurp

Feedfetcher-Google

DoCoMo

The World Wide Web Worm

Unknown robot (identified by empty user agent string)

Java (Often spam bot)

MagpieRSS

Unknown robot (identified by hit on 'robots.txt')

BlogPulse ISSpider intelliseek.com

NewsGator Online

The web archive (IA Archiver)

Nutch

MJ12bot

Alexa (IA Archiver)

Speedy Spider

Unknown robot (identified by '*bot')

Jakarta commons-httpclient

Mail.ru bot

BaiDuSpider

W3C Validator

MSNBot

NG 1.x (Exalead)

StackRambler

MSNBot-media

Voyager

GigaBot

Unknown robot (identified by 'robot')

Perl tool

Powermarks

FaceBook bot

SurveyBot

larbin

Netcraft

Aport

Дополнительная информация


Понравилась статья? Поделиться с друзьями:
Комментарии: 41
  1. uyra

    У меня проблема с индексацией блога Поможет если я изменю файл robots на Ваш
    такой вот файл у меня
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: /feed
    Disallow: /comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?*
    Disallow: /*?
    Allow: /wp-content/uploads

    # Google Image
    User-agent: Googlebot-Image
    Disallow:
    Allow: /*

    # Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*

    # Internet Archiver Wayback Machine
    User-agent: ia_archiver
    Disallow: /

    # digg mirror
    User-agent: duggmirror
    Disallow: /

    Sitemap: http://.ru/sitemap.xml

    User-agent: Yandex
    Crawl-delay: 5

    Disallow: /tag

    1. Илья

      на форумах пишут, что из-за этой штуки Disallow: /category/*/* — робот не видит то, что идет после /category/…..

  2. atbliss.ru (автор)

    Какая проблема у вас возникла с индексацией?

  3. uyra

    Сайту около 3-х месяцев 2 сайта один, на поддомене
    howww точка ru
    s.howww точка ru
    Сначала яндексом проиндексировались, а потом выпали из индексации. только первые две страницы в поиске уже такое больше месяца. Может домен, что то с доменом. Хотя с гуглом всё ок и PR3 незнаю в чем дело. Так же думаю поменять движок вместо вордпрес поставить DLE или полностью отказаться от домена забить другой не знаю, что лучше сделать.

    1. atbliss.ru (автор)

      Яндекс проиндексировал 3 страницы, Гугл — 1070. Яндекс.Вебмастер вообще показывает, что проиндексировано всего 2 страницы.

      Если в течение месяца ни одна страница не была проиндексирована Яндексом, значит сайт находится под фильтром.

      Я выборочно проверил одну страницу (howww.ru/video-video/kak-vybrat-xosting.html) на уникальность контента. Уникальность текста 76%. Адвего говорит, что уникальность текста низкая. Но директивой robots.txt индексация этой страницы разрешена.

      Я полагаю, что на всем сайте неуникальный контент. А как с остальными страницами обстоят дела?

      И еще, у вас в роботс, не указано основное зеркало.

      Навигация на блоге непонятная и неудобная.

      Вордпресс тут не причем.

    2. Денис

      У меня токаяже ерунда в гугле PR3 страниц тож по убавилось а в яндексе было 26 страниц и тиц был 20 а осталась одна страница и тиц меньше 10 ! че такое не понятно

      Документ запрещен в файле robots.txt 91
      Документ содержит мета-тег noindex 34
      Документ не является каноническим 24

      и еще одно не понятно robots его вообще веб мастер загрузить не может!

      ктонибуть что нибуть подсказать может!

      1. atbliss.ru (автор)

        Если в Яндексе осталась одна страница, значит сайт под фильтром АГС.

        Если robots.txt невозможно загрузить, значит он некорректный или отсутствует.

  4. uyra

    Контент не уникальный.
    Что то скопировано, переписано. Здесь конечно нечего сказать не могу. Однако сайт на DLE. с не уникальным контентом. Где страницы Добро пожаловать, Приобретение и оплата скрипта, Шаблоны для DataLife Engine специально мною удалены небыли. Страницы с полностью с не уникальным контентом. Были просканированны Яндексом и находятся в поиске. Страницы другого сайта на народе ру также, не содержащие Никого уникального контента находятся в поиске уже, не один год. Причём все до одной подчёркиваю с не уникальным контентом. Проблемы у меня только с вордпрес и юкоз. Хотя на юкоз я размещал именно уникальный контент. Хочу удалить сайт подождать месяц и разместить, на этом домене сайт на DLE. — Посмотрю, что получится домен просто жалко бросать. Хотя вот гугл проиндексировал и даже — PR3

    1. atbliss.ru (автор)

      Какой смысл тратить время и размещать неуникальный контент? Это вопрос времени. Рано или поздно Яндекс выбросит страницы с копипастом или даже весь сайт целиком из индекса, наложив на него фильтр АГС.

  5. Mila

    Чем отличается 1) Disallow: */comments, от Disallow: /comments
    2) Disallow: */feed от Disallow: /feed и от Disallow: /?feed=
    Что такое:
    Disallow: */trackback
    Disallow: /?s=
    Disallow: /*utm_
    Disallow: */comment-page-*
    Disallow: *?replytocom
    Clean-param: utm_source
    Непонятно ничего.

    1. atbliss.ru (автор)

      Спасибо за вопрос. Мне приходила мысль добавить комментарии. Так и сделаю. Но, я смогу это сделать когда немного освобожусь.

  6. Чайник

    спасибо! буду разбираться, по скольким сайто лажу везде свои версии роботса и не совсем понятно зачем комментарии убирать от индексации ведь это тоже контент

    1. atbliss.ru (автор)

      Комментарии доступны для индексации по УРЛ осноной страницы. А каждый коммент создается с новым УРЛ. При этом дублируется весь предыдущий контент и создается новая страница, которая отличается несколькими строчками комента. И так всякий раз, после добавления нового коммента. В итоге: представляете как расплодится основной контент?

  7. SEO Driver

    не знаю уже чему верить, где-то читал, что новые версии CMS WordPress уже не дублируют основной урл с ЧПУ и никаких манипуляций с robots.txt проводить не надо

    1. atbliss.ru (автор)

      Тогда следите за своим блогом — смотрите, что попадает в индекс поисковой системы.

  8. dicky

    По Вордпрессу могу сказать, что все же лучше закрывать от индексации. У меня как раз плачевная ситуация с этим вышла, сайт попал под фильтр. Есть предположения, что именно из-за дублей. Недавно закрыл в роботсе тэги и категории… Посмотрим, что из этого получится.

  9. света

    подскажите как закрыть файлы .txt в директориии где лежат и файлы .html. Это коментарии в текстовых файлах которые подгружаются инклудом на страницу сайта. А то вроде получается дублирование.

    1. atbliss.ru (автор)

      Используйте следующую директиву:

      Disallow: /*.txt # запрещает индексирование всех текстовых файлов

      Здесь указан весь сайт. Если нужно запретить индексирование только в определенной папке, то укажите путь к ней.

  10. света

    спасибо и с наступающим новым годом!!!!!!

    1. atbliss.ru (автор)

      Пожалуйста. И вас, с наступающим Новым годом!

  11. mit

    правильная настройка робота для ворлдпресcа на примере моего http://hard4news.ru

    ——————————
    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: */trackback
    Disallow: */feed
    Disallow: /*?*
    Disallow: /*?
    Host: hard4news.ru

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: */trackback
    Disallow: */feed
    Disallow: /*?*
    Disallow: /*?
    Sitemap: http://hard4news.ru/sitemap.xml

    User-agent: Mediapartners-Google

    1. atbliss.ru (автор)

      Какой смысл дублировать те же инструкции для Яндекса?

  12. mit

    Вообще, то то, что указано в Гугле и на других блогах, — неверный вариант и есть ошибки. У меня в Гугле для вебмастера всегда ошибки выскакивали по поводу робота.

    1. atbliss.ru (автор)

      А что нам до того, что написано у кого-то в блоге? Главное, что у себя было правильно :)

      Файл robots.txt в предназначен для запрета индексирования ненужных страниц и указания основного зеркала. Каждое правило, которое прописано в файле robots.txt можно проверить с помощью инструментов Гугла и Яндекса. И никаких ошибок не должно быть. Если есть — надо исправлять.

  13. Игорян

    Люди помогите для моего сайта который я заказал у одного знакомого своего он мне сделал вот такой robots.txt и поставил на индексацию его 25,08,2012 года и он до сих пор сегодня кстати 8 августа 2012 года и он еще не индексировается пример выкидываю вам на растерзание

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-
    Disallow: *?s=
    Disallow: *?attachment_id=
    Disallow: */feed
    Disallow: /xmlrpc.php

    Sitemap: http://bus-arenda.com.ua/sitemap.xml

    Host: bus-arenda.com.ua

    Не знаю что и делать напишите мне все на [email protected] или в контакте id99137670 c уважением ко всем жду ответа

    1. atbliss.ru (автор)

      Файл robots.txt в принципе разрешает индексирование контента сайта. Я проверил несколько страниц, к ним доступ поискового робота разрешен.

      Но, проблема в том, что тексты неуникальны. Например, страница Музей авиатехники имеет уникальность 38.89%. А должна быть не менее 95%.

      Решение — переписать все тексты.

  14. Игорян

    Спасибо за отзыв а можно тогда вопрос как смотреть уникальный текст или не уникальный если не трудно отпишитесь кому не трудно [email protected] или в контакте id99137670 c уважением ко всем жду ответа

    1. atbliss.ru (автор)

      В моем блоге есть две статьи «Проверка текстов на уникальность» и «Как проверить уникальность текста». Можете прочесть их. Если что-то будет непонятно, на тех же страницах, пожалуйста, — пишите в комментариях.

  15. irina edward

    Помогите пожалуйста разобраться.
    Как я могу создать robot.txt? Где-то можно скачать стандартный текст, а потом его подготовить для собственного сайта?
    Я совсем запуталась.

    1. atbliss.ru (автор)

      Robots.txt можно создать в обычном Блокноте. А что в него писать зависит от сайта и потребностей.

  16. Виталий

    Доброго времени суток!
    Подскажите пожалуйста
    как провильно закрыть такие архивные страницы
    /2012/01/08/ пример
    т.е. начинается с года и там далее месяц число
    я сделал так
    Disallow: /2012/
    Disallow: /2011/
    Disallow: /2010/
    Disallow: /2009/
    Disallow: /2008/
    Disallow: /2007/
    Disallow: /2006/
    закроют ли они от индексации
    например такие страницы как
    /2012/10/05/
    и т.д.

    1. atbliss.ru (автор)

      Вместо перечисления всех годов, достаточно прописать:

      Disallow: /20*
      Эта директива будет блокировать доступ к страницам, начинающимся с '/20'

      То есть доступ к архиву '/2012/10/05/' робот иметь не будет.

      1. Виталий

        Спасибо за быстрый ответ!
        я боюсь что в таком варианте может не войти в будущем в индексацию и я забуду
        а в таком варианте /2012/* закроет?

        1. atbliss.ru (автор)

          Директива Disallow: /2012/* закроет доступ ко всем страницам, начинающимся с /2012/.

          1. Виталий

            спасибо большое за ответ

  17. Ирина

    Добавляю к предыдущему: Гугл индексирует нормально.
    Ирина.

  18. Валентина

    Добрый день!
    Если можно, то я тоже хочу спросить ваш совет. Яндекс мне выдал при анализе сайта : Страницы запрещены к индексированию вебмастером или не существуют
    HTTP-статус: Ресурс не найден (404) ? 38
    Документ запрещен в файле robots.txt ? 364
    Документ содержит мета-тег noindex ? 84
    Документ является неканоническим ? 7
    А вот и мой Robots.txt
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*

    User-agent:-Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*

    Host:uyutnidom.com

    Sitemap: http://uyutnidom.com/sitemap.xml.gz
    Sitemap: http://uyutnidom.com/sitemap.xml
    Я что называется чайник в этом деле, поэтому и нуждаюсь в вашей помощи.

  19. артём

    хорошая статья)

  20. Алексей

    Здравствуйте.
    Вчера закрыл в роботе от индексирования теги, вечером робот зашел но всеровно теги в поиске.
    Что не так сделал?
    Если можно посмотрите мой роботс.
    Нужно ли закрывать архив?
    Спасибо.

  21. МегаполисАП

    Как-то все сложно. Можно обойтись в сайтостроении без этих заморочек с Роботсом?

    1. atbliss.ru (автор)

      Если хотите достичь хороших результатов, то без грамотно составленного роботс далеко не уйти.

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: