Роботс тхт для вордпресс

Правильно созданный файл robots.txt способствует быстрой индексации страниц сайта. Этот файл является служебным и призван улучшать поисковую оптимизацию сайта. Внутренняя оптимизация страниц также немаловажна для проекта и ею нужно заниматься.

Файл robots.txt позволяет ограничить индексацию тех страниц, которые индексировать не нужно. Поисковые роботы обращают внимание на этот служебный файл с целью запрета показа страниц в поисковых системах, которые закрыты от индексации. Кстати, в файле также указываются карта сайта и его зеркало.

Как создать robots.txt для WordPress

Чтобы приступить к созданию правильного файла, для начала давайте поймем, где находится robots.txt WordPress. Он располагается в корне сайта. Чтобы просмотреть корневые папки и файлы вашего проекта, необходимо воспользоваться любым FTP-клиентом, для этого просто нужно нажать на настроенное «Соединение».

Чтобы посмотреть содержимое нашего служебного файла, достаточно просто набрать в адресной строке после имени сайта robots.txt. Пример: https ://mysite .com /robots .txt

WordPress robots.txt где лежит вы знаете, осталось взглянуть, как должен выглядеть идеальный служебный файл для указанного выше движка.

В первую очередь в файле необходимо указать пусть к карте сайта:

Sitemap: http://web-profy.com/sitemap.xml

А теперь непосредственно правильная структура файла robots.txt для WordPress:

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

User-agent: Yandex

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Host: mysite.com

Sitemap: http://mysite.com/sitemap.xml.gz

Sitemap: http://mysite.com/sitemap.xml

Достаточно просто скопировать эти данные в свой файл. Так выглядит правильный robots.txt для WordPress.

Теперь рассмотрим, что означает каждая из строк в структуре служебного файла:

User-agent: * — строка, которая показывает, что все введенные ниже данные будут применимы относительно всех поисковых систем.

Однако для Яндекса правило будет выглядеть следующим образом: User-agent: Yandex.

Allow: — страницы, которые поисковые роботы могут индексировать.

Disallow: — страницы, которые поисковым роботам индексировать запрещено.

Host: mysite.com — зеркало сайта, которое нужно указывать в данном служебном файле.

Sitemap: — путь к карте сайта.

robots.txt для сайта WordPress, на котором не настроены ЧПУ

robots.txt для сайта WordPress, где находится список правил будет выглядеть несколько иначе в случае, если на сайте не настроены ЧПУ.

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

User-agent: Yandex

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Host: mysite.com

Sitemap: http://mysite.com /sitemap.xml.gz

Sitemap: http://mysite.com /sitemap.xml

Какие могут возникнуть проблемы на WordPress сайте, если нет настроены ЧПУ. Строка в служебном файле robots.txt Disallow : /*?* не позволяет индексировать страницы сайта, а именно так выглядят адреса страниц проекта при отсутствии настроек ЧПУ. Это может негативно отражаться на рейтинге интернет-проекта в поисковиках, поскольку нужный пользователям контент просто не будет им показываться в результатах выдачи.

Конечно, эту строку можно в файле можно легко удалить. Тогда сайт будет работать в нормальном режиме.

Как убедиться в том, что robots.txt составлен правильно

Сделать это можно при помощи специального инструмента от Яндекс — Яндекс.Вебмастер .

Необходимо зайти в Настройки индексирования — Анализ robots .txt

Внутри все интуитивно понятно. Необходимо нажать на «Загрузить robots .txt с сайта». Также вы можете каждую страницу отдельно просмотреть на наличие возможности ее индексации. В «Список URL» можно просто ввести адрес интересующих вас страниц, система покажет все сама.

Не стоит забывать о том, что все изменения, которые вы вносите в файл robots.txt, будут доступны не сразу, а спустя лишь несколько месяцев.

Как правильно сохранять файл robots.txt

Чтобы наш служебный файл был доступен в такой поисковой системе, как Google, его необходимо сохранить следующим образом:

Файл в обязательном порядке должен иметь текстовый формат;
Разместить его необходимо корне вашего сайта;
Файл должен иметь имя robots.txt и никакое другое больше.

Адрес, по которому поисковые роботы находят robots.txt должен иметь следующий вид — https://mysite.com/robots.txt

Правила написанные в robots.txt нужны исключительно поисковым роботам, что бы понять, какие страницы, разделы, файлы сайта посещать и индексировать, а какие нет.

У каждой поисковой системы (Google, Yandex и другие) есть роботы для мониторинга сайта, которые руководствуются алгоритмами обхода страниц сайта и индексирования. Настройки индексирования сайта и мониторинг осуществляется в Search Console у Google и Яндекс Вебмастер у Яндекса. Там же можно проверить правильность файла robots.txt, «скормить» поисковой системе карту сайта sitemap.xml, посмотреть результаты индексирования и многое другое.

Как происходит обход страниц со стороны поисковых систем я надеюсь понятно, а вот со стороны сайта файл robots.txt дает инструкции роботам поисковых систем, на какие странички переходить и индексировать, а какие нет.

Стоит также учитывать настройки дополнительного софта — плагинов, которые могут прямо влиять на индексирование сайтов, например такие популярные плагины WordPress, как All in One SEO или Yoast SEO и другие.

Настройки плагинов могут противоречить инструкциям в robots.txt, могут быть ссылки с других сайтов на запрещенную к индексированием страницу и поисковый робот будет действовать на свое усмотрение.

Это означает, что поисковая система не будут строго руководствоваться инструкциями robots.txt, например робот Google обойдет и проиндексирует все что захочет, если посчитает нужным.

Базовая настройка robots.txt

У каждой поисковой системы есть рекомендации по настройке robots.txt и желательно с ними ознакомится, Google и Яндекс .

Идея правильного формирования robots.txt заключается в том, что бы дать поисковым системам правильное представление контента сайта, так, как видят его пользователи, скрыв при этом не нужную системную информацию, страницы дубли(пагинацию), поисковые запросы со страниц сайта, данные о пользователях(если это нужно), метки, отчеты и прочее.

Я изучил документацию, прочел рекомендации многих известных блогеров, тематических форумов, туториалы плагинов и могу сделать вывод, что для свежеустановленного сайта на WordPress достаточно базовых настроек. А дальше уже каждый веб-мастер дописывает инструкции в robots.txt под нужды данного конкретного сайта, охватить все возможные случаи не возможно, главное понять «как это работает», что бы дописать robots.txt «под себя», но и при базовых настройках, сайт на WordPress будет нормально функционировать.

Структура robots.txt

Условно файл можно разделить на четыре секции.

User-agent: к какому поисковому роботу относятся инструкции.
Disallow: и Allow: блок правил запрещающих и разрешающих.
Host: инструкция для Яндекса.
Sitemap: расположение карты сайта.

User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-json/ Disallow: /xmlrpc.php Disallow: /readme.html Disallow: /*? Disallow: /?s= Allow: /*.css Allow: /*..com/sitemap.xml

Неплохой базовый вариант, который предлагает плагин Clearfy, он не лишен недостатков, но его не сложно доработать под свои нужды добавив несколько инструкций.

Пояснения по robots.txt

User-agent: * Пояснения, какому именно поисковому роботу адресуются заданные правила. Например для Google — «User-agent: Googlebot», для Яндекса — «User-agent: Yandex» и тд. В этом случае создаются секции правил для каждого поискового робота отдельно. В нашем же случае задано «User-agent: *», и дальнейшие правила заданны для всех поисковых роботов одновременно.
Правило Disallow: /wp-admin, Disallow: /wp-includes, Disallow: /wp-content/plugins, Disallow: /wp-content/cache, запретить обход вышеназванных каталогов. Не самый элегантный и верный способ реализации.
Правило Disallow: /xmlrpc.php . Файл xmlrpc.php нужен для удаленного управления WordPress и индексировать его не нужно.
Правило Disallow: /readme.html . Файл readme.html — это туториал WordPress, индексировать его не нужно.
Правила Disallow: /*? и Disallow: /?s= закрывают страницы поисковых запросов.
Правила Allow: /*.css и Allow: /*.js указание роботу обязательно перейти на страницы css и js. Нужно для того, что бы поисковые системы правильно формировали страницы, подключая стили и скрипты. Если этого не сделать, будут ошибки в Google Search Console.
Правило Host: https://сайт . Указываем главное зеркало сайта. Что бы поисковая система Яндекс понимала, какая версия сайта является основной: с https или http, с www или без www.
Правило Sitemap: https://сайт/sitemap.xml указывает роботам, где находится XML версия карты сайта. Если бы я использовал сжатую версию карты сайта, то нужно было бы дописать правило и для сжатой версии сайта Sitemap: https://сайт/sitemap.xml.gz. Если карт несколько, нужно прописать путь к каждой.

С таким robots.txt ваш WordPress сайт будет нормально индексироваться роботами поисковых систем. Но данный файл далеко не идеален, нужно его усовершенствовать.

Оптимизация robots.txt

Disallow: /cgi-bin закрываем каталог /cgi-bin, в них обычно находятся скрипты веб-сервера, у меня они в другом месте и папка пуста, но отдадим почтение классике и блогу wp-kama.
Disallow: /?, Disallow: *?s=, Disallow: *&s=, Disallow: /search/ закрываем поиск на сайте для индексирования.
Disallow: /wp-, Disallow: /wp/ закрываем каталог /wp/ если он есть, и все файлы каталога wp-, ниже мы откроем для поисковых роботов только нужные файлы.
Disallow: */feed, Disallow: */rss, Disallow: */embed закрываем rss ленты, фиды и встраивания..
Disallow: */trackback закрываем трекбэки.
Disallow: /author/ закрываем архивы автора и Disallow: /users/ авторов.
Allow: /*/.js, Allow: /*/.css открываем js-скрипты и css-файлы внутри /wp- (/*/ — для приоритета).
Добавляем правила обхода мультимедиа контента, того, что используете: Allow: /wp-*.png, Allow: /wp-*.jpg, Allow: /wp-*.jpeg, Allow: /wp-*.gif, Allow: /wp-*.svg, Allow: /wp-*.pdf, Allow: */uploads.
Нужно добавить дополнительную секцию для Яндекса, другие поисковики не понимают директиву Host .

Оптимизированный robots.txt

User-agent: * Disallow: /cgi-bin Disallow: /? Disallow: *?s= Disallow: *&s= Disallow: /wp- Disallow: /wp/ Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: /readme.html Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: */uploads Allow: /wp-admin/admin-ajax.php User-agent: Yandex Disallow: /cgi-bin Disallow: /? Disallow: *?s= Disallow: *&s= Disallow: /wp- Disallow: /wp/ Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: /readme.html Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: */uploads Allow: /wp-admin/admin-ajax.php Host: ваш-сайт.com #указывайте главное зеркало сайта Sitemap: https://ваш-сайт.com/sitemap.xml # если у вас нет SSL, то http, а не https # Sitemap: https://ваш-сайт.com/sitemap.xml.gz # если у вас есть сжатая версия сайта, раскомментируйте строку выше

Резюмируя

Хотите узнать больше о robots.txt? Есть сайт посвященный этой тематике, там в нюансах и подробностях систематизирована информация, разобраны ошибки, которые часто допускают веб-мастера.

Не забывайте о мануалах поисковых систем, ссылки в начале статьи. А также о проверке robots.txt и карты сайта в консолях поисковых систем.

(Последнее обновление: 31.05.2019)

Привет всем! Сегодня тема очень важная это - robots.txt для сайта WordPress . Поисковые роботы заходя на сайт или блог первым делом ищут файл robots.txt . Что такое robots.txt? Robots.txt - служебный файл, который находится в корневом каталоге сайта и содержит набор директив, позволяющих управлять индексацией сайта. Он позволяет указывать поисковым системам, какие страницы сайта или файлы должны присутствовать в поиске, а какие - нет. Когда приходит на хостинг, файл robots.txt является одним из первых документов, к которому он обращается.

Создание robots.txt для сайта WordPress

Как создать файл robots.txt для WordPress

Robots.txt в большинстве случаев используется для исключения дубликатов, служебных страниц, удаленных страниц и других ненужных страниц из индекса поисковых систем. Кроме того, именно через robots.txt можно указать ПС адрес карты сайта.

Воспользуйтесь любым текстовым редактором (например, блокнотом), создайте файл с именем robots.txt и заполните его как показано ниже. Файл должен называться robots.txt, а не так - Robots.txt или ROBOTS.TXT.

После этого необходимо загрузить файл в корневой каталог вашего сайта.

Файл robots.txt должен располагаться строго в корне сайта и он должен быть единственным.

Оптимальный, правильный robots.txt для сайта WordPress. Общий для и Яндекс. Такой robots.txt у меня стоит на всех сайтах:

User-agent: * Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /core/ Disallow: */feed Disallow: *?s= Disallow: *&s= Disallow: /search Disallow: */embed Disallow: *?attachment_id= Disallow: /id_date Disallow: */page/ Disallow: *?stats_author Disallow: *?all_comments Disallow: *?post_type=func Disallow: /filecode Disallow: /profile Disallow: /qtag/ Disallow: /articles/ Disallow: /artictag/ Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /*ajax Sitemap: http://example.com/sitemap.xml

Стандартный robots.txt WordPress

Раздельный для Google и Yandex:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Host: site.ru User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Sitemap: http://сайт.ру/sitemap.xml

Замените сайт.ру на ваш URL адрес блога. Смело можете скормить данным файлом поисковые системы Яндекс и Google.

Как настроить индивидуально важный файл robots.txt можно прочитав эти справки:

На странице помощи Яндекса . Проверить правильность составления файла можно в webmaster.yandex - Настройка индексирования - Анализ robots.txt. Далее, в Google robots.txt можно проверить по этой ссылке . Не забудьте что проверяемый блог должен быть добавлен в Инструменты для веб-мастеров Google и Яндекс .

Обратите внимание, что для Яндекса и Google правила составления robots.txt немного различаются. Вот ещё полезный ресурс для изучения robotstxt.org.ru . Вот и всё.

Теперь остаётся загрузить созданный файл в корневой каталог вашего блога. Корень блога это - папка public_html, где находятся файл config.php, index.php и так далее.

В заключение

Создание и тщательная подготовка robots.txt крайне важны. При его отсутствии поисковые роботы собирают всю информацию, относящуюся к сайту. В поиске могут появиться незаполненные страницы, служебная информация или тестовая версия сайта.

Вот на этом позвольте с вами не надолго попрощаться. Удачи. До новых встреч на страницах блога.

Здравствуйте, дорогие читатели! С вами проект «Анатомия Бизнеса» и вебмастер Александр. Мы продолжаем цикл статей мануала «Как создать сайт на WordPress и заработать на нем», и сегодня мы поговорим о том, как создать файл robots.txt для WordPress и зачем нужен данный файл.

В прошлых 16-и уроках мы рассмотрели огромное количество материала. Наш сайт практически готов для того, чтобы начать заполнять его интересным контентом и проводить SEO-оптимизацию.

Итак, давайте перейдем к делу!

Для чего сайту нужен файл robots.txt?

Основную ценность на нашем сайте будет представляет именно контент, но помимо него на сайте есть целая куча технических разделов или страниц, которые для поискового робота не является чем-то ценным.

К таким разделам можно отнести:
— админ. панель
— поиск
— возможно, Вы захотите закрыть от индексации комментарии
— или какие-то страницы-дубли, имеющие в своих урлах одни и те же символы

В общем, robots.txt предназначен для того, чтобы запретить поисковому роботу индексацию тех или иных страниц.
В свое время в понимания того, как работает robots txt, мне очень помогла эта картинка:

Как мы можем видеть, первым делом, когда поисковый робот заходит на сайт, он ищет именно этот Файл! После его анализа он понимает в какие директории ему нужно заходить, а в какие нет.

Многие начинающие веб мастера пренебрегают данным файлом, а зря! Т. к. от того насколько «чистой» будет индексация вашего сайта, зависит его позиции в поисковике.

Пример написания файла robots.txt для WordPress

Давайте теперь разбираться, как писать данный файл. Тут нет ничего сложного, для его написания нам достаточно открыть обычный текстовый редактор «блокнот» или можно воспользоваться профессиональным редактором типа notepad+.
Вводим в редактор следующие данные:

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-comments

Disallow: /wp-content/themes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */trackback
Disallow: */feed
Disallow: /cgi-bin
Disallow: *?s=
Host: site.ru

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-comments
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */trackback
Disallow: */feed
Disallow: /cgi-bin
Disallow: *?s=

Sitemap: http://site.ru/sitemap.xml

А теперь давайте разбираться со всем этим.

Первое, на что нужно обратить внимание, так это на то, что файл разбит на два больших блока.
И в начале каждого блока стоит директория «User-agent», которая указывает для какого робота сделан данный блок.
У нас первый блок сделан для роботов Yandex, о чем свидетельствует данная строка: «User-agent: Yandex»

Второй блок говорит о том, что он для всех остальных роботов. На это указывает звездочка «User-agent: *».

Директория «Disallow» устанавливает, какие именно разделы запрещены к индексации.

Теперь разберем по разделам:

/wp-admin - запрет на индексацию админ. панели

/wp-includes - запрет на индексацию системных папок движка WordPress

/wp-comments - запрет на индексацию комментариев

/wp-content/plugins - запрет на индексацию папки с плагинами для WordPress

/wp-content/themes - запрет на индексацию папки с темами для WordPress

/wp-login.php - запрет на индекс формы входа на сайт

/wp-register.php - закрываем от робота форму регистрации

*/feed - запрет на индекс RSS-фида блога

/cgi-bin - запрет на индекс каталога скриптов на сервере

*?s= — запрет на индексацию всех URL, которые содержат?s=

И в самом конце robots.txt показываем роботу, где находится файл sitemap.xml

Sitemap: http://site.ru/sitemap.xml

После того как файл готов, сохраняем его в корневой директории сайта.

Как закрыть какие-то рубрики от индексации?

Например, Вы не хотите показывать какую-то рубрику на Вашем сайте для поисковых роботов. Причины на это могут быть совершенно разные. Например, Вы хотите, чтобы Ваш личный дневник читали только постоянные посетители сайта.

Первое, что нам нужно сделать, — это узнать URL данной рубрики. Скорее всего, он будет /moy-dnevnik.

Для того чтобы закрыть данную рубрику, нам достаточно добавить в нее следующую строку: Disallow: /moy-dnevnik

Robots.txt - когда ждать эффект?

Могу сказать из личной практики, что не стоит ожидать, что уже при следующем апдейте все закрытые Вами рубрики уйдут из индекса. Иногда этот процесс может занимать до двух месяцев. Просто запаситесь терпением.

Также необходимо учитывать, что роботы Google могут просто игнорировать данный файл, если сочтут, что страница уж очень уникальная и интересная.

О чем нужно помнить ВСЕГДА!

Конечно, техническая составляющая является не маловажной, но в первую очередь нужно делать акцент на полезный и интересный контент, за которым будут возвращаться постоянные читатели Вашего проекта! Именно ставка на качество сделает Ваш ресурс востребованным и популярным

Успехов Вам в интернет-бизнесе