Как составить правильный robots.txt

Совсем недавно я заглянул в Яндекс.Вебмастер и ужаснулся. Вообще в этой панели я редкий гость, в этот раз просто понадобилось добавить карту сайта, если быть точным несколько различных карт, которые мы обозрели ранее.

Так вот, как вы знаете, на главной панели вебмастера имеется сразу несколько показателей и график числа страниц исключенных роботом. Вот мне в глаза этот график и бросился — на нем был изображен резкий скачок синей кривой, которая отвечает за исключение страниц намеренно запрещенных к индексации. Мне стало интересно, что же такого я там назапрещал (есть такое слово?:)).

Как составить правильный robots.txt для wordpress?

Просмотрев все страницы с запрещенными к индексации URL я увидел среди них вполне нормальные посты, которые действительно были исключены из индекса благодаря имеющемуся у меня robots.txt.

Дальше больше. Решив за одно просмотреть проиндексированные URL, по мимо нормальных страниц я заметил всякую хрень, наподобие такой: /404-not-found-wordpress.html/feed или вот такой /404-not-found-wordpress.html/404-pravitelstvo. А затем я зашел в вебмастер Google… Это пипец какой-то, но там примерно тоже самое.

В общем понял я одно — нельзя полагаться на 100% на выложенные в сети примеры robots.txt для wordpress, как сделал это я. Каждый robots.txt необходимо настраивать под конкретный сайт. Этим и займемся.

Что такое robots.txt рассказывать смысла не имеет. В сети об этом уже и без меня достаточно наговорили. Ну если так, коротенько, то с помощью этого обычного текстового файла (расширение .txt) мы можем запретить поисковым роботам индексировать какие-либо разделы или файлы сайта.

До того, как я узрел сие недоразумение в блоге pervushin.com использовалось следующее содержимое:

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments

Host: pervushin.com

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments

Sitemap: http://pervushin.com//sitemap.xml

По большей части здесь все в порядке, но, как я уже говорил, у меня какого-то черта присутствуют ссылки такого вида: ссылка.html/crossposting. У меня в блоге используется ЧПУ с html окончанием и какой-либо слеш с приставками впринципе существовать не должны.

Также в указанном файле последние три строки запрещают у ссылок окончание /trackback, /feed, /comments и это правильно, но эти окончания идут также после .html. Поэтому вместо указанных выше 3-х строчек я использовал директиву Disallow: *.html/*, которая запрещает к индексации все подобные URL.

Продолжив изучать имеющиеся в индексе поисковиков страницы, заметил ссылки типа ссылка.js?иещечегототам. А она-то какого хрена в индексе делает? Запретил Disallow: */*.js*.

Вы используете поиск sphinx у себя в блоге? Это великолепный поиск, который дает релевантные запросу результаты. Но вот не задача, в индекс попали не известные мне страницы ссылка/sphinx/чтототутеще. Запретил Disallow: */sphinx/*.

А еще в индексе оказались дубли страниц без ЧПУ. Они выглядят так: ссылка/?p=xx. Опасность состоит в том, что поисковики могут выкинуть из индекса ссылки с ЧПУ или опустить их ниже в выдаче. В общем надо избавиться от таких ссылок. Делаем это строчкой Disallow: */?p*.

Ну и кроме того я запретил к индексации теги, фиды и все внешние ссылки, которые идут через /goto/. А также удалил все директивы предназначенные для яндекса, User-agent: * вполне достаточно.

Редактирование и проверка robots.txt в инструментах Яндекс и Google

В течении всего процесса редактирования файла я проверял его на корректность. Делается это в вебмастерских разделах поисковиков. У яндекса (webmaster.yandex.ru) раздел находится в «Настройки индексирования->Анализ Robots.txt». У google (google.com/webmasters) раздел «Конфигурация сайта->Доступ для сканера».

У обоих поисковиков имеется по паре окошек в которых можно редактировать сам файл и загружать различные URL адреса для проверки правильности составленного файла. Вот так этот раздел выглядит у Яндекса:

Проверка правильности созданного robots.txt в Яндекс.Вебмастере

В верхнем окошке редактируем сам файл роботс.тхт, а в нижнее копируем все возможные URL адреса в блоге. Для проверки нажимаем кнопку «Проверить» и яндекс покажет нам, какие адреса разрешены к индексации, а какие запрещены:

Проверка robots.txt на корректность

Если все в порядке, значит можно смело заливать полученный файл на сервер. Но я на всякий случай проверил его и в Google. Принцип тот же — в верхнем окошке содержимое robots.txt, в нижнем проверяемые URL адреса:

Редактирование роботс.тхт в Google Webmaster

Нажимаем «Проверить» и изучаем результаты, все ли верно разрешено и запрещено:

Проверяем правильность robots.txt в google

После тщательной проверки у меня получился вот такой robots:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-cron.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /webstat/
Disallow: /feed/
Disallow: /tag/
Disallow: /search/
Disallow: /goto/
Disallow: *.html/*
Disallow: */sphinx/*
Disallow: */*.js*
Disallow: /daos/
Disallow: */?p*
Disallow: */?s*
Host: pervushin.com
Sitemap: http://pervushin.com//sitemap.xml

По прошествии какого-то времени все же следует еще раз посетить Яндекс.Вебмастер и Google.Вебмастер, дабы проверить ссылки в индексе и запрещенные к индексации. А то ведь знаете как оно бывает, яндекс — «найдется все», а у google тем более.

Удачи Вам и правильного robots.txt!

Сладкое на сегодня: очередной пример классного, креативного рекламного ролика. Ну почему в России не делают таких? Наслаждайтесь :):

Комментарии

37 на запись "Как составить правильный robots.txt"
  1. Аноним says:

    Правильный роботс очень важен. Тоже анализирую сейчас. Мои эксперименты продолжаются.
    Реклама веселая, подняла настроение, сенкью. :-))

  2. Олег says:

    Спасибо, есть пища для размышлений и исправлений. А то многие советуют — вот robots.txt для WordPress, пользуйтесь. И у каждого советчика разный. А стало быть он и должен быть для каждого сайта свой. Слышал так же мнения, что он вообще не нужен.

    • Спасибо.

      robots.txt нужен, однозначно. Вы возможно слышали не так давно об утечке информации с различных интернет-магазинов и правительственных сайтов в поиск Яндекса. Так с интернет-магазинов в поиск попала информация о покупателях и их заказах, особенно людей повеселила информация с секс-шопов, а с правительственных сайтов документация не публичная, как горячие пирожки разлетались. Просто они либо не использовали robots.txt, либо не запретили к индексации определенные URL.

  3. @google-db8f3c70d659af90ad547424bc2d853e:disqus В автомобильной сфере перевод техники на зимнее и летнее время эксплуатации дело стандартное. Но из года в год мусолят одни и те же темы: какие колеса ставить, когда их начать ставить, какое масло лучше и т.д. Почему это делается? Потому что каждый год появляется все больше и больше автолюбителей. И это для них, а не для тех, кто уже в теме.

    Я этот пост не с потолка взял, это случилось со мной. Почему я не должен писать в свой блог то, что случилось со мной и что возможно поможет кому-то избежать подобных ошибок?

    >>анализируйте свежие пробные выкладки или придумывайте или разрабатывайте свои схемы продвижения и то пользы будет больше

    Спасибо за совет. Вы мне просто глаза открыли 🙂

  4. Аноним says:

    Серёга спсбо, материал интересный, дак какое масло лучше:)

  5. Tettie says:

    Сергей, а что насчет категорий и архивов? Они ведь тоже дублируют контент — может и их закрыть от индексации через robots.txt?

    • Ах да, архивы можно и закрыть, а категории я не закрываю. Учитывая, что основной контент находится под катом, то категории в общем-то не дублируют его, а скорее указывают к какой теме относится тот или иной пост.

      • Tettie says:

        У тебя да, посты текстовые, длинные — основная часть под катом. Мне же категории нужно закрыть, потому что под катом у меня обычно только картинки, а всё, что можно было сказать, сказано выше ))
        А еще вопрос: в основной папке public_html много php-файлов (помимо wp-login.php, wp-register.php и др.) — для каждого из них нужно прописать запрет в «роботсе»?

        P.S. На данный момент мой «роботс» пока такой: http://tettie.net/robots.txt

        • Я закрывал лишь те, которые оказывались каким-то образом в индексе яндекса и google. Точно не скажу, нужно ли прописывать их все. …надо бы еще разок в вебмастер яндекс и гугла заглянуть.

    • Ах да, архивы можно и закрыть, а категории я не закрываю. Учитывая, что основной контент находится под катом, то категории в общем-то не дублируют его, а скорее указывают к какой теме относится тот или иной пост.

  6. Andrey says:

    Я с этим robot.txt чтот никак не могу разобраться, сайт на автомобильную тему, и в веб мастере яндекса синяя полоса всё больше и больше, даже не знаю что делать, Сергей может подскажете что у меня не так     

  7. Ничего страшного не случится. Правите файл и проверяете в Яндекс.Вебмастер на корректную работу. Там Вы и увидите, правильно он составлен или нет.

  8. Да, лучше скрывать, как и теги, например.

  9. Сергей says:

    Сейчас нет смысла составлять отдельные правила для Яндекса, если они не отличаются от правил для остальных поисковиков. Звездочку Яндекс прекрасно понимает.

  10. Ссылка нормальная, но в индексе ей не место 😉

  11. Может пригодится: http://help.yandex.ru/webmaster/?id=996567

    Символ ‘#’ предназначен для описания комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается.

  12. Т.е. ко всем URL сайта дописывается это?

  13. Хм…надо глянуть. Это точно не к robots.txt вопрос. Можно это увидеть?

  14. Не страшно, но и не рекомендуется. Все зависит от поставленных задач перед сайтом.
    Индексировать подкатегории и запретить категории — нелогично, думаю с этим будут сложности.

  15. yepi250 says:

    Все знают, что, Это трудная работа, но после прочтения вашего блога, я чувствую, что это легко сделать. Спасибо за обмен.

  16. Причин может быть много, необходимо смотреть. Но, если страницы ранее были в индексе и вылетели — АГС.

  17. В вашем случае наверное нужно просто подождать.

  18. Ищу, не могу найти как настроить файл роботс для интернет магазина на вордпресс, Может подскажите???

  19. Ищу, не могу найти как настроить файл роботс для интернет магазина на вордпресс, Может подскажите???

  20. Олег says:

    Я на своем блоге ещё закрываю /author/, и пока не использую host.
    Может ли последнее быть причиной полного выпадания все страниц с индекса, а при проверке через вебмастер пишет что страницы не в индексе так как копируют уже имеющиеся на сайте страницы ?

Спасибо, что оставили свой комментарий

banner