robots.txt для wordpress

robots.txt для wordpress 1

robots.txt для wordpress 1

robots.txt для wordpress один из главных моментов настройки индексации. Ранее мы говорили об ускорении и улучшении процесса индексации статей. Причем рассматривали этот вопрос так, как будто поисковый робот ничего не знает и не умеет, а мы ему должны подсказать. Для этого мы использовали карту сайта файл sitemap.xml.

Возможно вы еще не догадывается, что делает поисковый робот когда попадает на ваш сайт? По умолчанию индексировать ему разрешено всё. И робот-паук, получив сигнал о том, что есть сайт, который надо посетить, тут же ставит его в очередь на индексацию. Поэтому индексация происходит не мгновенно по нашему требованию, а через какое-то время. Как только очередь доходит до вашего сайта этот робот-паук тут как тут. Он не стучится и не спрашивает разрешения, так как ему по умолчанию всё разрешено. А сразу вламывается на сайт, как полноправный хозяин и начинает шарить по всем закоулкам, по всем папкам и файлам, выискивая тексты и всевозможные ссылки.

Естественно делает он это в пределах какого-то ограниченного промежутка времени. Именно поэтому, если вы создали сайт на несколько тысяч страниц и выложили его целиком, то робот просто не успеет обойти все страницы за один заход. И в индекс попадут только те, которые он успел просмотреть. А ходит робот по всему сайту и тратит на это свое время. И не факт что в первую очередь он будет просматривать именно ваши странички, которые вы так ждете в результатах поиска.

Сделав полную копию всего, что ему удалось найти, он покидает ваш сайт, до следующего раза. Как вы понимаете, после такого обшаривания в базу индекса поисковика попадает всё, что надо и всё, что не надо. То что надо вы знаете - это ваши статьи, страницы, картинки, ролики и т.д. А вот чего индексировать не надо?

Для WordPress это оказывается очень важный вопрос. Ответ на него затрагивает и ускорение индексации содержимого вашего сайта, и его безопасность. Дело в том, что всю служебную информацию индексировать не надо. А файлы WordPress вообще желательно спрятать от чужих глаз. Это уменьшит вероятность взлома вашего сайта.

WordPress создаёт очень много копий ваших статей с разными адресами, но одним и тем же содержанием. Выглядит это так:

//название_сайта/название_статьи,

//название_сайта/название_рубрики/название_статьи,

//название_сайта/название_рубрики/название_подрубрики/название_статьи,

//название_сайта/название_тега/название_статьи,

//название_сайта/дата_создания_архива/название_статьи

С тегами и архивами вообще караул. К скольким тегам привязана статья, столько копий и создаётся. При редактировании статьи, сколько архивов в разные даты будет создано, столько и новых адресов с практически похожим содержанием появится.

Если все эти копии проиндексировать и предоставить в поиске то вес главной статьи размажется на все копии, что очень плохо. И не факт, что будет показана в результате поиска именно статья с главным адресом. Следовательно надо запретить индексирование всех копий.

Читайте также:  All in one SEO pack SEO плагин Wordpress настройки и возможности

WordPress оформляет картинки как отдельные статьи без текста. В таком виде без текста и описания они как статьи выглядят абсолютно некорректно. Следовательно нужно принять меры чтобы эти адреса не попали в индекс поисковиков.

Почему же не надо всё это индексировать?

Пять причин для запрета индексации!

Во первых это создаёт лишнюю нагрузку на ваш сервер.

Во вторых отнимает драгоценное время самого робота.

В третьих и это пожалуй самое главное, некорректная информация может быть неправильно интерпретирована поисковыми системами. Это приведет к неправильному ранжированию статей и страниц, а в последствии и к некорректной выдаче в результатах поиска.

В четвертых папки с шаблонами и плагинами содержат огромное количество ссылок на сайты создателей и рекламодателей, а это очень плохо для вашего сайта, особенно в начале, когда на ваш сайт ссылок из вне еще нет или очень мало.

В пятых индексируя все копии ваших статей, например в архивах, у поисковика складывается плохое мнение о вашем сайте и он будет плохо ваш сайт показывать в результатах поиска. А картинки, оформленные в виде отдельной статьи с названием и без текста, приводят робота просто в ужас. Если их очень много, то сайт может загреметь под фильтр АГС Яндекса. Я там был. Проверено!

Теперь после всего сказанного возникает резонный вопрос: "А можно ли как то запретить индексировать то что не надо?". Оказывается можно. Хотя бы не в приказном порядке, а в рекомендательном. Ситуация не полного запрета индексации некоторых объектов возникает из-за файла sitemap.xml, который обрабатывается после robots.txt. Получается так: robots.txt запрещает, а sitemap.xml разрешает. И всё же решить эту задачу мы можем. Как это сделать правильно сейчас и рассмотрим.

robots.txt для wordpress 2

robots.txt для wordpress 2

Файл robots.txt для wordpress по умолчанию динамический и реально в wordpress не существует. А генерируется только в тот момент, когда его кто-то запрашивает, будь это робот или просто посетитель. То есть если через FTP соединение вы зайдете на сайт, то в корневой папке файла robots.txt для wordpress вы там просто не найдете. А если в браузере укажите его конкретный адрес http://название_вашего_сайта/robots.txt, то на экране получите его содержимое, как будто файл существует. Содержимое этого сгенерированного файла robots.txt для wordpress будет такое:

User-agent: *

В правилах составления файла robots.txt по умолчанию разрешено индексировать всё. Директива User-agent: * указывает на то, что все последующие команды относятся ко всем поисковым агентам ( * ). Но далее ничего не ограничивается.  И как вы понимаете этого не достаточно. Мы с вами уже обсудили папок и записей, имеющих ограниченный доступ, достаточно много.

Чтобы можно было внести изменения в файл robots.txt и они там сохранились, его нужно создать в статичном постоянном виде.

Читайте также:  Файл sitemap карта сайта для поисковика

Как создать robots.txt для wordpress

В любом текстовом редакторе (только ни в коем случае не используйте MS Word и ему подобные с элементами автоматического форматирования текста) создайте текстовый файл с примерным содержимым приведенным ниже и отправьте его в корневую папку вашего сайта. Изменения можно делать в зависимости от необходимости.

Только надо учитывать особенности составления файла:

В начале строк цифр, как здесь в статье, быть не должно. Цифры здесь указаны для удобства рассмотрения содержимого файла. В конце каждой строки не должно быть ни каких лишних знаков включая пробелы или табуляторы. Между блоками должна быть пустая строка без каких либо знаков включая пробелы. Всего один пробел может принести вам огромный вред - БУДЬТЕ ВНИМАТЕЛЬНЫ.

Как проверить robots.txt для wordpress

Проверить robots.txt на наличие лишних пробелов можно следующим образом. В текстовом редакторе выделить весь текст, нажав кнопки Ctrl+A. Если пробелов в конце строк и в пустых строках нет, вы это заметите. А если есть выделенная пустота, то вам надо убрать пробелы и всё будет ОК.

Есть ещё один способ проверить файл robots.txt для сайта wordpress, это загрузить его содержимое в вебмастер яндекса или указать адрес его расположения. Если есть какие-либо ошибки вы тут же узнаете.

Правильный robots.txt для wordpress

Теперь давайте перейдем непосредственно к содержимому файла robots.txt для сайта wordpress. Какие директивы в нем должны присутствовать обязательно. Примерное содержание файла robots.txt для wordpress, учитывая его особенности приведено ниже:

  1. User-agent: *
  2. Disallow: /wp-login.php
  3. Disallow: /wp-admin
  4. Disallow: /wp-includes
  5. Disallow: /wp-content/plugins
  6. Disallow: /wp-content/themes
  7. Disallow: */*comments
  8. Disallow: */*category
  9. Disallow: */*tag
  10. Disallow: */trackback
  11. Disallow: */*feed
  12. Disallow: /*?*
  13. Disallow: /?s=
  14. Allow: /wp-admin/admin-ajax.php
  15. Allow: /wp-content/uploads/
  16. Allow: /*?replytocom
  17. User-agent: Yandex
  18. Disallow: /wp-login.php
  19. Disallow: /wp-admin
  20. Disallow: /wp-includes
  21. Disallow: /wp-content/plugins
  22. Disallow: /wp-content/themes
  23. Disallow: */comments
  24. Disallow: */*category
  25. Disallow: */*tag
  26. Disallow: */trackback
  27. Disallow: */*feed
  28. Disallow: /*?*
  29. Disallow: /*?s=
  30. Allow: /wp-admin/admin-ajax.php
  31. Allow: /wp-content/uploads/
  32. Allow: /*?replytocom
  33. Host: site.ru
  34. Sitemap: http://site.ru/sitemap.xml

Директивы файла robots.txt для wordpress

Теперь давайте рассмотрим поподробнее:

1 – 16 строки блок настроек для всех роботов

User-agent: * - Это обязательная директива, а звездочка говорит, что директива для роботов всех поисковых систем.

Disallow: - директива запрещающая индексирование папок или конкретных файлов. В нашем примере с помощью названий папок и масок названий файлов, сделан запрет на все служебные папки вордпресса, такие как admin, themes, plugins, comments, category, tag...

Allow: - директива разрешающая индексирование папок или файлов. Её полезно использовать когда в глубине запрещённых папок есть файлы которые всё же надо проиндексировать.

В моём примере строка 3 Disallow: /wp-admin - запрещает индексирование папки /wp-admin, а 14 строка Allow: /wp-admin/admin-ajax.php - разрешает индексирование файла /admin-ajax.php расположенного в запрещенной к индексированию папке /wp-admin/.

17 - Пустая строка (просто нажатие кнопки Enter)

Читайте также:  Скорость загрузки сайта и 15 шагов как её увеличить

18 - 33 блок настроек конкретно для  агента Яндекса (User-agent: Yandex). Как вы заметили этот блок полностью повторяет все команды предыдущего блока. И возникает вопрос: " А на фига такая заморочка?". Так вот это всё сделано всего лишь из-за одной команды которая идёт дальше.

34 - Пустая строка.

35 - Host: site.ru - доменное имя вашего сайта (ОБЯЗАТЕЛЬНАЯ директива для блока Яндекса). Если наш сайт использует протокол HTTPS, то адрес надо указывать полностью как показано ниже:

Host: https://site.ru

36 - Пустая строка.(обязательно должна присутствовать)

37 - Sitemap: http://site.ru/sitemap.xml - адрес расположения файла (файлов) карты сайта sitemap.xml (ОБЯЗАТЕЛЬНАЯ директива), располагается в конце файла после пустой строки и относится ко всем блокам.

Маски к директивам файла robots.txt для wordpress

Теперь немного как создавать маски:

Disallow: /wp-register.php - Запрещает индексировать файл wp-register.php, расположенный в корневой папке.

Disallow: /wp-admin - запрещает индексировать содержимое папки wp-admin, расположенной в корневой папке.

Disallow: /trackback - закрывает индексировать уведомлений

Disallow: /wp-content/plugins - запрещает индексировать содержимое папки plugins, расположенной в подпапке (папке второго уровня) wp-content.

Disallow: /feed - запрещает индексировать канал feed т.е. закрывает RSS фид канал сайта.

* - означает любая последовательность символов, поэтому может заменять как один символ, так и часть названия или полностью название файла или папки. Отсутствие конкретного названия в конце равносильно написанию *.

Disallow: */*comments - запрещает индексировать содержимое папок и файлов в названии которых присутствует comments и расположенных в любых папках. (в данном случае запрещает индексировать комментарии)

Disallow: *?s= - запрещает индексировать страницы поиска

Приведенные выше строки вполне можно использовать в качестве рабочего файла robots.txt для wordpress. Только в 35, 37 строках необходимо вписать адрес вашего сайта и ОБЯЗАТЕЛЬНО УБРАТЬ номера строк. И у вас получится рабочий файл robots.txt для wordpressадаптированный под любую поисковую систему. Единственная особенность - размер рабочего файла robots.txt для сайта wordpress не должен превышать 32 кБ дискового пространства.

Если вдруг где-либо в интернете вы встретите предложение применить директивы расширенного формата Sitemap, предназначенного для индексирования картинок, видео и RSS/Atom-фидов, то не соглашайтесь. Яндекс не поддерживает обработку расширенных форматов Sitemap для картинок, видео и RSS/Atom-фидов. Ваши файлы Sitemap окажутся некорректными для яндекса и могут возникнуть проблемы с индексацией ваших страниц. А так как 60-80% трафика у нас как правило идет от яндекса, то потери количества посетителей могут быть очень существенными. Будьте внимательны в этом вопросе.

Ещё одна маленькая рекомендация.

Если вас абсолютно не интересует Яндекс, то строки 18-35 вам не понадобятся вообще. На этом пожалуй всё. Надеюсь что статья оказалась полезной. Если есть вопросы пишите в комментариях.

1
Отправить ответ

avatar
1 Цепочка комментария
0 Ответы по цепочке
0 Подписчики
 
Популярнейший комментарий
Цепочка актуального комментария
1 Авторы комментариев
Наталья Авторы недавних комментариев
  Подписаться  
Новейшие Начиная со старых Наибольшее количество голосов
Уведомлять если
Наталья
Гость
Наталья

Здравствуйте,Александр! Первый раз в гостях. Какой полезный сайт у Вас! Мои пожелания активного продвижению в 2015 Вашего блога! Дальнейших творческих успехов! И с наступающим Новым Годом! Гармонии! Благополучия!

Рассылка 'Установка и настройка Windows, необходимое ПО' Best-Hoster.ru
WordPress: 48.14MB | MySQL:88 | 1,050sec