Файл sitemap — карта сайта для поисковика

Файл sitemap - Google XML Sitemaps
Файл sitemap - Google XML Sitemaps

Учитывая тот факт, что карта сайта представляет собой упорядоченный список ссылок на все статьи сайта, было бы неплохо использовать её в качестве помощника для индексации сайта поисковиками. Для этого был придуман специальный протокол sitemap. Определяющий порядок записи ссылок и понятный для сканеров поисковых систем при индексации. С помощью файла sitemap.xml веб-мастера могут сообщать поисковым системам о страницах, которые доступны для сканирования. Файл sitemap представляет собой XML-файл. В котором перечислены URL-адреса объектов сайта в сочетании с метаданными, связанными с каждым адресом (дата его последнего изменения; частота изменения; его приоритет на уровне сайта). Чтобы поисковые системы могли более грамотно сканировать этот сайт.

Роботы обычно находят страницы по ссылкам, указанным на сканируемом сайте и на других сайтах. Эта информация, дополненная данными из файлов sitemap.xml, позволяет роботам найти все URL записанные в файле sitemap.xml и собрать информацию об этих URL с помощью связанных метаданных. Как правило файл sitemap.xml располагается в корневой папке сайта.

Как формируется файл sitemap.xml

Пример записи двух ссылок и шапки файла приведён ниже:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
      <loc>http://example.com/obomne</loc>
      <lastmod>2013-09-06</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.8</priority>
   </url>
   <url>
      <loc>http://example.com/otebe</loc>
      <lastmod>2013-09-06</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.8</priority>
     </url>
</urlset>

Значения строк

Первая строка указывает версию формата XML (1.0) и кодировку текста (UTF-8).

Вторая строка указывает адрес расположения самого протокола Sitemap 0.90, который получил широкое признание. Его поддерживают Google, Yahoo! и Майкрософт, а в последнее время Бинго, Яндекс, Майл.ру и многие другие поисковые системы.

Третья – восьмая строки это запись одной ссылки:

Третья строка - открывающий тег URL-адреса для первой статьи;

Четвертая строка указывает сам URL-адрес первой статьи (Длина этого значения не должна превышать 2048 символов.);

Пятая указывает дату и время создания статьи;

Шестая строка указывает частоту обновления статьи (ежемесячно); возможные значения: ежечасно, ежедневно, еженедельно, ежемесячно и 1 раз в год;

Седьмая строка указывает рейтинг статьи на вашем сайте; нормальное значение от 0,2 до 0,8;

Ну и восьмая строка тег закрытия адреса первой ссылки.

Далее все повторяется для каждой последующей ссылки.

В конце файла (в нашем случае строка 15) ставится тег закрытия установок адресов.

Ограничения Гугла и Яндекса для sitemap

Существуют некоторые ограничения создания файла карты сайта, которые обязательно надо учитывать. Для Гугла и Яндекса они слегка разные. Яндекс в официальном описании требований к файлу sitemap указал. В одном файле должно быть прописано не более 50 000 URL, а размер файла не должен превышать 10 МБ. При необходимости файл Sitemap можно сжать с помощью архиватора gzip, чтобы уменьшить требования к пропускной способности канала. Однако размер файла sitemap без сжатия не должен превышать 10 МБ.

У Гугла требования немного отличаются. По официальному описанию файл Sitemap может содержать не более 50 000 URL, а его размер в несжатом виде не должен превышать 50 МБ. Если объем файла или количество перечисленных в нем адресов превышают эти пределы, необходимо разбить его на несколько частей. Однако в дополнительных рекомендациях тоже указано, что объем не сжатого файла не должен превышать 10 МБ. Последнее время часто звучит новое правило: файл Sitemap не должен содержать более 1 000 URL в одном файле. Это увеличивает нагрузки на сервер. Особенно это актуально для вордпресса.

Плагины создающие sitemap

Как вы заметили, создание файла sitemap.xml не такая уж и простая задача, если её пытаться выполнить вручную, особенно для большого количества статей. Но карта сайта для поисковиков является важнейшим элементом для индексации и SEO оптимизации сайта. Многие разработчики SEO плагинов для WordPress стали включать эту важнейшую функцию в свои плагины. Например All in One SEO Pack и Yoast SEO.

Я протестировал эти плагины в области построения файла sitemap.xml и пришёл к выводу, что они не годятся для Яндекса. Яндекс плохо относится к новациям заложенным в этих картах сайта. Он просто не понимает некоторые теги. В результате пришлось вернуться к традиционному специализированному плагину Google XML Sitemaps. И не зря. Формат файлов, созданных плагином Google XML Sitemaps, устраивает не только зарубежные поисковые системы  но и российские. Сейчас мы его и рассмотрим.

Google XML Sitemaps генерирует правильный файл sitemap для Яндекса

Скачать плагин можно из репозитория WordPress. После установки и активации плагина в админке WordPress в разделе меню «Настройки» появится пункт «XML-Sitemap». Щёлкнув мышкой на этот пункт, активируем панель настроек Генератора XML-карты сайта.

Настройки Google XML Sitemaps

Настроек обнаруживается достаточно много, но вы легко разберетесь, что включить в карту, а что нет. Настройки, предложенные по умолчанию, практически идеальны и можно ничего не менять. Но я всё же прокомментирую.

Панель настроек разделена на восемь частей. Первая часть информационная и содержит информацию о дате и времени последней проверки файла sitemap.xml, а так же адрес его расположения.

Информационная панель

файл sitemap - Google XML Sitemaps - Результат последней проверки
файл sitemap - Google XML Sitemaps - Результат последней проверки

Чуть ниже сообщается, что поисковые системы Google и Bing успешно уведомлены об изменениях на сайте. В следующей строке Предлагается уведомить поисковые системы об изменениях прямо сейчас. Это значит, если вы внесли изменения в статьи, а плагин по каким-то причинам автоматически не отправил уведомления поисковым системам, то вы можете сделать это принудительно в ручном режиме, нажав на ссылки. Ниже идет строка с предложением воспользоваться в случает возникновения проблем функцией отладки. Надеюсь она вам никогда не понадобится. Далее следует предложение оценить звездами в отзыве на сайте Вордпресса или пожертвовать копеечку для поддержки разработчика. Во втором окне расположены "Базовые параметры".

Базовые настройки

файл sitemap - Google XML Sitemaps - Базовые параметры
файл sitemap - Google XML Sitemaps - Базовые параметры

Здесь имеется 3 базовых настройки и 8 расширенных. Первые две это отправлять или не отправлять уведомления для Google и Bing. Третий пункт предлагает Добавить URL файла Sitemap в виртуальный файл robots.txt. Это очень важный пункт. Если вы только создали сайт на базе WordPress, то у вас нет физического файла robots.txt. WordPress генерирует его в момент обращения по его адресу. Содержание этого виртуального файла очень скудное и универсальное. По умолчанию доступно для индексирования всё. Место расположения файла sitemap.xml не прописано. Если вы поставите галочку в этом пункте, то в этот виртуальный robots.txt при его создании будет добавляться путь доступа к файлу sitemap.xml, что сильно улучшит результаты индексирования вашего сайта поисковыми системами. Условие работы этого пункта отсутствие реального файла robots.txt.

Расширенные настройки Google XML Sitemaps

  1. "Попытаться увеличить лимит памяти" - Необходим в случаях когда возникают проблемы связанные с нехваткой памяти. На современных версиях wordpress может не понадобиться.
  2. "Попытаться увеличить ограничение времени исполнения" - Этот параметр влияет на нагрузку и быстродействие сайта. На современных версиях wordpress может не понадобиться.
  3. "Попробовать автоматически сжимать карту сайта, если запрашивающий клиент поддерживает сжатие" - Параметр включен по умолчанию. Если нет проблем в его работе, то отключать его не надо.
  4. "Включить таблицу стилей XSLT" - Параметр для визуального оформления карты. По умолчанию настройки вполне достаточны.
  5. "Полный или относительный URL к Вашему файлу .xsl" - Уже включен и менять настройку не надо.
  6. "Изменить базовый URL карты сайта" - Файл sitemap.xml создаётся в корневой папке блога, а должен находиться в корневой папке сайта. Блог может располагаться в каком либо подкаталоге. Вот тогда понадобится этот пункт и потребуется изменить файл .htaccess.
  7. "Включать карту сайта в формате HTML" - Пункт по умолчанию уже включен. Что позволяет создать карту в формате html. Это даёт дополнительные удобства при просмотре её разными браузерами, не поддерживающими .xml формат.
  8. "Разрешить анонимную статистику (никакой личной информации)" - Этот пункт собирает статистику о вашем сайте и отправляет на сайт разработчика. Не знаю зачем это надо. Я его никогда не включаю.

Дополнительные страницы

файл sitemap - Google XML Sitemaps - Дополнительные страницы
файл sitemap - Google XML Sitemaps - Дополнительные страницы

Третье окно называется "Дополнительные страницы". В самом окне достаточно подробно описано что здесь можно сделать. Достаточно нажать кнопку "Добавить новую страницу" и откроется окно куда вы впишите необходимые параметры добавляемой страницы или сайта. После всех изменений не забудьте нажать кнопку "Обновить параметры", расположенную в самом низу, что бы сохранить изменения.

Как вычислять приоритет статей

файл sitemap - Google XML Sitemaps - Приоритет статьи<
файл sitemap - Google XML Sitemaps - Приоритет статьи

Четвертое окно называется "Приоритет статьи". По умолчанию выбран первый пункт. И это достаточно разумно. Поскольку все статьи в данном случае будут иметь приоритет, определённый ниже, и который не будет изменяться в зависимости от наличия или отсутствия комментариев. Это снижает нагрузку на сервер.

Содержание карты сайта

sitemap.xml - Google XML Sitemaps - Содержание карты сайта
sitemap.xml - Google XML Sitemaps - Содержание карты сайта

Пятое окно называется "Содержание карты сайта". Это наверное самое важное окно, так как определяет, что будет находиться в файле sitemap.xml и что будет индексироваться. По умолчанию включены первые три пункта и этого вполне достаточно. Некоторые включают ещё и четвертый пункт. Я этого не делаю, поскольку переходы из поиска по названию категорий увеличивают количество отказов. Все остальные пункты, особенно "Архивы" создают дубли, что крайне плохо влияет на рейтинг и репутацию сайта. Поэтому их ни в коем случае не включаем, чтобы не злить яндекс. Ниже расположена дополнительная, но очень важная опция "Включать время последнего изменения". Она помогает поисковику определить, что содержание старой статьи недавно изменилось и её надо снова проиндексировать.

Исключённые объекты

sitemap.xml - Google XML Sitemaps - Исключенные объекты
sitemap.xml - Google XML Sitemaps - Исключенные объекты

Шестое окно "Исключенные объекты" может быть полезно, если ранее в пятом окне "Содержание карты сайта" вы включали дополнительные пункты. Тогда здесь можно исключить из файла sitemap.xml некоторые категории или непосредственно статьи и страницы, указав их адреса.

Рекомендуемые частоты обхода статей

sitemap.xml - Google XML Sitemaps - Изменить частоты
sitemap.xml - Google XML Sitemaps - Изменить частоты

Седьмое окно позволяет изменять частоты повторной индексации объектов сайта. Настройки по умолчанию сделаны правильно. Поэтому менять их я не рекомендую. Хотя можете поэкспериментировать. Только не устанавливайте все пункты индексировать ежедневно. Это не улучшит результаты поиска, а нагрузку на сайт увеличит.

Установка приоритетов статей

sitemap.xml - Google XML Sitemaps - Приоритеты
sitemap.xml - Google XML Sitemaps - Приоритеты

Восьмое окно, позволяет определить приоритеты индексирования объектов сайта. По умолчанию они установлены правильно. Но можете попробовать сделать некоторые изменения. Например во втором пункте можно попробовать увеличить до 0,8. Главную страницу понижать ни стоит. А повышать четыре последних нет смысла. Если установить все приоритеты одинаковыми, то поисковые системы не будут знать что у вас главное. Что его нужно индексировать в первую очередь. Поэтому менять настройки и здесь не рекомендую. В случае внесения изменений в настройки не забудьте нажать кнопку "Обновить параметры".

Вот и всё о настройках. Далее плагин автоматически выполняет построение xml карты сайта при любом изменении статей вашего блога. И предоставляет достаточное количество информации о вашей карте сайта. Когда она была создана с указанием даты и времени. Успешно ли были проинформированы поисковики. Карты сайта, построенные плагином Google XML Sitemaps нравятся Яндексу и всем остальным поисковым системам.

Начиная с версии 4.0 плагин больше не работает со статическими файлами, а генерирует динамические карты. При обновлении статей или публикации новых генерируется по новой не вся карта сайта, а только та её часть в которой описываются новые изменения. Это ускоряет работу сайта и процесс индексации новых и измененных статей поисковиками.

Вот пожалуй и всё что касается создания карты сайта для поисковика и работы с плагином Google XML Sitemap.

Понравилась статья? Поделиться с друзьями:
Комментариев: 2
  1. Екатерина Худякова

    Александр, а Вы же используете плагин All In One SEO Pack, почему тогда через него не подключаете карту сайта? Мне кажется, так лучше будет, а то чем больше плагинов установлено, тем выше нагрузка на сайт, и тем ниже скорость загрузки его страниц))).

    1. Александр (автор)

      Я же писал выше, что карта сайта, созданная плагином Google XML Sitemaps, лучше воспринимается Яндексом. Для меня это очень важно.
      All In One SEO Pack и Yoast SEO в Sitemaps используют теги, которые Яндекс не понимает.

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!:

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Рассылка'Установка и настройка Windows, необходимое ПО'
Памяти: 15.51MB | MySQL:170 | 0,579sec