robots.txt для сайта wordpress

robots.txt для сайта wordpress 1

robots.txt для сайта wordpress 1

robots.txt для сайта wordpress. Ранее мы говорили об ускорении и улучшении процесса индексации статей. Причем рассматривали этот вопрос так, как будто поисковый робот ничего не знает и не умеет, а мы ему должны подсказать. Наверное вы еще не догадывается, что делает робот когда попадает на ваш сайт? А робот-паук, получив сигнал о том, что есть сайт, который надо посетить, тут же ставит его в очередь на индексацию. Именно поэтому индексация происходит не мгновенно по нашему требованию, а через какое-то время. И как только очередь доходит до вашего сайта этот робот-паук тут как тут. Он не стучится и не спрашивает разрешения, так как ему по умолчанию всё разрешено. А сразу вламывается на сайт, как полноправный хозяин и начинает шарить по всем закоулкам, по всем папкам и файлам, выискивая тексты и всевозможные ссылки.

Естественно делает он это в пределах какого-то ограниченного промежутка времени. Именно поэтому, если вы создали сайт на несколько тысяч страниц и выложили его целиком, то робот просто не успеет обойти все страницы за один заход. И в индекс попадут только те, которые он успел просмотреть. А ходит робот по всему сайту и тратит на это свое время. И не факт что в первую очередь он будет просматривать именно ваши странички, которые вы так ждете в результатах поиска.

Сделав полную копию всего, что ему удалось найти, он покидает ваш сайт, до следующего посещения. Как вы понимаете после такого обшаривания в базу индекса поисковика попало всё, что надо и всё, что не надо. То что надо вы знаете - это ваши статьи и страницы. А вот чего индексировать не надо? Оказывается это вся служебная информация и в первую очередь все файлы нашей любимой WordPress. Копии статей и страниц в архивах создают впечатление, что у вас очень много статей с одинаковыми текстами. Картинки оформленные в отдельные статьи (они в таком виде без текста и описания выглядят абсолютно некорректно).

Почему не надо их индексировать? Во первых это создаёт лишнюю нагрузку на ваш сервер. Во вторых отнимает драгоценное время самого робота, который может пойти туда и во второй и в третий раз, а тексты останутся не просмотренными. В третьих и это пожалуй самое главное, некорректная информация может быть неправильно интерпретирована. Это приведет к неправильному ранжированию статей и страниц, а в последствии и к некорректной выдаче в результатах поиска.

В четвертых папки с шаблонами и плагинами содержат огромное количество ссылок на сайты создателей и рекламодателей, а это очень плохо для вашего сайта, особенно в начале, когда на ваш сайт из вне еще ссылок нет или очень мало. В четвертых индексируя все копии ваших статей, например в архивах, у поисковика складывается плохое мнение о вашем сайте и он будет плохо ваш сайт показывать в результатах поиска. А картинки, оформленные в виде отдельной статьи с названием и без текста, приводят робота просто в ужас. Если их очень много, то сайт может загреметь под фильтр АГС.

Теперь после всего сказанного возникает резонный вопрос: "А можно ли как то запретить индексировать то что не надо?". Оказывается можно. Хотя бы не в приказном порядке, а в рекомендательном. Ну то-есть избавиться от полной индексации мы вряд ли сможем, а вот рекомендовать не выводить в поисковых запросах некоторые папки и файлы нашего сайта мы вполне можем.

robots.txt запретить индексацию 2

robots.txt для сайта wordpress 2

Для этого существует файл Robots.txt. Файл robots.txt для сайта wordpress по умолчанию динамический и Реально в WordPress он не существует. А генерируется только в тот момент, когда его кто то запрашивает, будь это робот или просто посетитель. То есть если через FTP соединение вы зайдете на сайт, то в корневой папке файла robots.txt для сайта wordpress вы там просто не найдете. А если в браузере укажите его конкретный адрес http://название вашего сайта/robots.txt, то на экране получите его содержимое, как будто файл существует. Содержимое этого сгенерированного файла robots.txt для сайта wordpress примерно такое:

User-agent: *

В правилах составления файла robots.txt по умолчанию индексировать разрешено всё. Директива User-agent: * указывает на то, что все последующие команды относятся ко всем поисковым агентам ( * ). Но далее ничего не ограничивается.  И как вы понимаете этого не достаточно. Во первых как мы уже с вами обсудили, папок, имеющих ограниченный доступ, достаточно много. А во вторых команды в данном файле робот от Яндекса воспринимает немного по другому чем все остальные поисковики. Для Яндекса нужен специальный блок. Чтобы решить эти проблемы необходимо в любом текстовом редакторе (только ни в коем случае не используйте MS Word и ему подобные с элементами автоматического форматирования текста) создать текстовый файл с примерным содержимым приведенным ниже и забросить его в корневую папку вашего блога. Изменения можно делать в зависимости от необходимости.

Только надо учитывать особенности составления файла:

В начале строк цифр, как здесь в статье, быть не должно (цифры здесь указаны для лучшего рассмотрения содержимого файла). В конце каждой строки не должно быть ни каких лишних знаков включая пробелы или табуляторы. Между блоками должна быть пустая строка без каких либо знаков включая пробелы. Всего один пробел может принести вам огромный вред - БУДЬТЕ ВНИМАТЕЛЬНЫ. Проверить robots.txt на наличие лишних пробелов можно следующим образом. В текстовом редакторе выделить весь текст, нажав кнопки Ctrl+A. Если пробелов в конце строк и в пустых строках нет, вы это заметите. А если есть выделенная пустота, то вам надо убрать пробелы и всё будет ОК. Есть ещё один способ проверить файла robots.txt для сайта wordpress, это загрузить его содержимое в вебмастере яндекса или указать адрес его расположения. Если есть какие-либо ошибки вы тут же узнаете. Теперь давайте перейдем непосредственно к содержимому файла robots.txt для сайта wordpress. Какие директивы в нем должны присутствовать обязательно.

robots.txt для сайта wordpress

Примерное содержание файла robots.txt для сайта wordpress, учитывая его особенности приведено ниже:

  1. User-agent: *
  2. Disallow: /wp-login.php
  3. Disallow: /cgi-bin
  4. Disallow: /wp-admin
  5. Disallow: /wp-includes
  6. Disallow: /wp-content/plugins
  7. Disallow: /wp-content/themes
  8. Disallow: */*comments
  9. Disallow: */*category
  10. Disallow: */trackback
  11. Disallow: */feed
  12. Disallow: /*?*
  13. Disallow: /?s=
  14. Allow: *?replytocom
  15. User-agent: Yandex
  16. Disallow: /wp-login.php
  17. Disallow: /cgi-bin
  18. Disallow: /wp-admin
  19. Disallow: /wp-includes
  20. Disallow: /wp-content/plugins
  21. Disallow: /wp-content/themes
  22. Disallow: /trackback
  23. Disallow: */comments
  24. Disallow: /category
  25. Disallow: */trackback
  26. Disallow: */feed
  27. Disallow: /*?*
  28. Disallow: /*?s=
  29. Allow: *?replytocom
  30. Host: доменное имя вашего сайта(в виде - site.ru)
  31. Sitemap: http://адрес вашего сайта/sitemap.xml

Теперь давайте рассмотрим поподробнее:

1 – 14 блок настроек для всех роботов

User-agent: * - Это обязательная директива, а звездочка говорит, что директива для роботов всех поисковых систем.

Disallow: - директива запрещающая индексирование папок или конкретных файлов. В нашем примере с помощью названий папок и масок названий файлов, сделан запрет на все служебные папки вордпресса.

Allow: - директива разрешающая индексирование папок или файлов. Её полезно использовать когда в глубине запрещённых папок есть файлы которые всё же надо проиндексировать.

15 - Пустая строка.

16 - 30 блок настроек конкретно для Яндекса (User-agent: Yandex).

31 - Пустая строка.

32 - доменное имя вашего сайта (ОБЯЗАТЕЛЬНАЯ директива)

Host: может находиться где угодно, но лучше её расположить в конце файла как в нашем примере.

33 - Пустая строка.

34 – адрес расположения файла (файлов) карты сайта sitemap.xml (ОБЯЗАТЕЛЬНАЯ директива), располагается в конце файла после пустой строки.

Теперь немного как создавать маски:

Disallow: /wp-register.php - Запрещает индексировать файл wp-register.php, расположенный в корневой папке.

Disallow: /wp-admin - запрещает индексировать содержимое папки wp-admin, расположенной в корневой папке.

Disallow: /trackback - закрывает индексировать уведомления

Disallow: /wp-content/plugins - запрещает индексировать содержимое папки plugins, расположенной в подпапке (папке второго уровня) wp-content.

Disallow: /feed - запрещает индексировать канал feed т.е. закрывает RSS фид блога.

* - означает любая последовательность символов, поэтому может заменять как один символ, так и часть названия или полностью название файла или папки. Отсутствие конкретного названия в конце равносильно написанию *.

Disallow: */*comments - запрещает индексировать содержимое папок и файлов в названии которых присутствует comments и расположенных в любых папках. (запрещает индексировать комментарии)

Disallow: *?s= - запрещает индексировать страницы поиска

Приведенные выше строки вполне можно использовать в качестве рабочего файла robots.txt для wordpress. Только в 32, 34 строках необходимо вписать адрес вашего сайта.

Учитывая что поисковых систем много и все они работают не совсем одинаково, то такие же блоки как для Яндекса, есть смысл прописать и для некоторых нам известных поисковых систем. Названия блоков для Mail.Ru, StackRambler, Googlebot, googlebot-image, googlebot-mobile, Aport, msnbot, psbot, yahoo-slurp приведены ниже:

User-agent: *
Disallow:
User-agent: Yandex
Disallow:
User-agent: Mail.Ru
Disallow:
User-agent: StackRambler
Disallow:
User-agent: Googlebot
Disallow:
User-agent: googlebot-image
Disallow:
User-agent: googlebot-mobile
Disallow:
User-agent: Aport
Disallow:
User-agent: msnbot
Disallow:
User-agent: psbot
Disallow:
User-agent: yahoo-slurp
Disallow:

Вместо строк "Disallow:" необходимо вставить блок из строк 2-14 или 16-30 и не забыть вставить пустые строки между блоками (БЕЗ ПРОБЕЛОВ), как показано выше. А так же добавить адрес вашего сайта и адрес расположения карты сайта (строки 32 и 34 из демонстрационного файла robots.txt для wordpress). И у вас получится рабочий файл robots.txt для сайта wordpressадаптированный под любую поисковую систему. Единственная особенность - размер рабочего файла robots.txt для сайта wordpress не должен превышать 32 кБ дискового пространства.

Если вдруг где-либо в интернете вы встретите предложение применить директивы расширенного формата Sitemap, предназначенного для индексирования картинок, видео и RSS/Atom-фидов, то не соглашайтесь. Яндекс не поддерживает обработку расширенных форматов Sitemap для картинок, видео и RSS/Atom-фидов. Ваши файлы Sitemap окажутся некорректными для яндекса и могут возникнуть проблемы с индексацией ваших страниц. А так как 60-80% трафика у нас как правило идет от яндекса, то потери количества посетителей могут быть очень существенными. Будьте внимательны в этом вопросе.

Отправить ответ

1 Комментарий на "robots.txt для сайта wordpress"

Уведомлять если
avatar
Сортировать по:   Новейшие | Начиная со старых | наибольшее количество голосов
Наталья
Гость

Здравствуйте,Александр! Первый раз в гостях. Какой полезный сайт у Вас! Мои пожелания активного продвижению в 2015 Вашего блога! Дальнейших творческих успехов! И с наступающим Новым Годом! Гармонии! Благополучия!