Здравствуйте уважаемые друзья moneytime.com.ua! Проверка robots.txt также важна, как и его правильное составление.
Проверка файла robots.txt в панели Yandex и Google Webmasters.
Проверка robots.txt, почему важно проверить?
Рано или поздно каждый уважающий себя автор сайта вспоминает про файл robots. Про этот файл, размещаемый в корне сайта, написано в интернете предостаточно. Почти у каждого вебмастера есть статья на сайте про актуальность и правильность составления его. Я же в этой статье напомню начинающим блоггерам как проверить его с помощью инструментов в панели вебмастера, предоставляемые Yandex и Google.
Для начала немного о нем. Файл Robots.txt (иногда ошибочно называемый robot.txt, в единственном числе, внимание английская буква s в конце обязательна) создается веб-мастерам, чтобы отметить или запретить те или иные файлы и папки веб-сайта, для поисковых пауков (а также других типов роботов). Т. е. те файлы, к которым робот поисковика не должен иметь доступ.
Проверка robots.txt является для автора сайта обязательным атрибутом при создании блога на WordPress и его дальнейшем продвижении. Многие вебмастера также обязательно просматривают тепловую карту кликов страниц проекта. Анализ дает понять роботам правильный синтаксис, чтобы убедиться, в его действительном формате. Дело в том, что существует установленный Стандарт исключений для роботов. Будет не лишним узнать мнение самих поисковиков, читайте документацию, в ней поисковые системы подробно излагают свое видение насчет этого файла.
Все это будет не лишним, дабы впредь обезопасить свой сайт от ошибок при индексировании. Знаю примеры, когда из-за неправильного составленного файла, был дан сигнал запретить его видимость в сети. При дальнейшем его исправлении можно долго ждать изменения ситуации вокруг сайта.
Останавливаться на правильном составлении самого файла в этой статье не буду. Примеров в сети множество, можете зайти на блог любого популярного блоггера и приписать в конце его домена для проверки /robots.txt. Браузер покажет его вариант, который вы можете взять за основу. Однако у каждого бывают свои исключения, поэтому необходимо проверить именно для своего сайта на соответствие. Также описание и пример правильного текста для блога на WordPress находиться по адресу:
codex.wordpress.org
Sitemap: http: // ваш сайт/sitemap.xml
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
# digg mirror
User-agent: duggmirror
Disallow: /
# global
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/
Существуют некоторые различия в составлении и дальнейшей проверки файла robots.txt для основных поисковых систем Рунета. Ниже приведу примеры, как проверить в панели Яндекс Вебмастер и Google.
После того как вы составили файл и закинули его в корень своего сайта по FTP необходимо провести проверку его на соответствие к примеру поисковой системе Яндекс. Тем самым мы узнаем, не закрыли ли мы случайно те страницы, благодаря которым к вам придут посетители.
Проверка robots.txt в панели Yandex Webmaster
У вас должен быть аккаунт в панели Яндекс Вебмастер. Зайдя в инструменты и указав свой сайт, справа будет перечень доступных возможностей. Переходим на вкладку «Проверить robots.txt»
Указываем свой домен и жмем «Загрузить robots.txt с сайта». Если у вас составлен файл, в котором указано отдельно для каждой поисковой системы, то необходимо выбрать строки для Яндекс и скопировать их в поле ниже. Напоминаю, директива Host: актуальна для Янд., поэтому не забудьте внести в поле для проверки. Осталось сделать проверку robots.txt. Кнопка справа.
Буквально сразу увидите анализ от Яндекс на соответствие вашего robots.txt. Ниже будет указаны строки, которые Янд. принял к рассмотрению. И смотрим результаты проверки. Слева Url указаны директивы. Справа напротив сам результат. Как видно на скриншоте, правильно будет увидеть красным цветом надпись – запрещен правилом и указано само правило. Если вы указали директиву для индексации, то увидим зеленым – разрешен.
После проверки robots.txt, вы сможете подкорректировать свой файл. Также рекомендую проверить страницы сайта. Вставляем url адрес отдельной записи в поле /Список URL/. И на выходе получаем результат – разрешен. Так мы сможет отдельно проверить запреты на архивы, рубрики и далее.
Не забываем подписываться, в следующей статье планирую показать, как бесплатно пройти регистрацию в каталог Mail.ru. Не пропустите, подписка.
Как проверить в Yandex Webmasters.
Проверить robots.txt в панели Google Webmasters
Заходим в свой аккаунт и ищем слева /Состояние/ – /Заблокированные URL/
Здесь увидим его наличие и возможность отредактировать. При необходимости проверки всего сайта на соответствие указываем в поле ниже адрес главной страницы. Имеется возможность проверить, как видят разные роботы Google ваш сайт с учетом проверки файла robots.txt
Кроме основного бота Google выбираем и робота специализирующегося на разных видах контента (2). Скриншот ниже.
Googlebot
Googlebot-Image
Googlebot-Mobile
Mediapartners-Google – показатели для AdSense
AdsBot-Google – проверка качества целевой стр.
Показатели для других роботов Гугл я не нашел:
Googlebot Video
Googlebot-News
Прочитать про роботов Google – support.google.com/webmasters/bin/answer.py?hl=ru&answer=1061943
По аналогии с проверкой файла роботс.тхт в панели Яндекс, здесь также есть возможность проанализировать отдельную страницу сайта. После проверки вы увидите результат отдельно для каждого поискового бота.
При условии, что результаты проверки вас не устроили, вам остается дальше продолжить редактировать. И в дальнейшем проверка.
Анализ robots.txt онлайн
Кроме этих возможностей, вы также можете сделать анализ файла robots.txt с помощью онлайн сервисов. Те которые я находил в основном англоязычные. Мне понравился этот сервис. После анализа будут даны рекомендации по его исправлению.
tool.motoricerca.info/robots-checker.phtml
На этом все. Надеюсь, проверка файла robots.txt глазами Яндекс и Google вас не расстроила? Если же увидели не соответствие вашим желаниям, то всегда можно отредактировать и затем сделать повторный анализ. Спасибо за ваш твит в Twitter и лайк в Facebook!
А я как залил один раз, так и не вспоминаю.
Выберу время и прослушаю видеоуроки, полчаса все-таки.Вдруг чего-то упустил.
Вот с .htaccess проблем больше быдо у меня – блог вылетал из-за него. Пришлось прописать директиву 400 – только для чтения.
Но в этом случае некоторые плагины не работают нормально.
Ульяна, запрещая папку wp-includes, вы ставите запрет на индексацию файлов и папок движка WordPress. Например стандартные смайлики WordPress и др.
Ошибка 403 показывает запрет на доступ к этой папке. Как вариант, может выставлены неправильные права на папку.
Ульяна, страницы с комментариями я закрыл директивой Disallow: */comments. Существуют подобные для запрета всех видов комментариев в файле robots.txt:
Disallow: /comments/
Disallow: */comments/
Disallow: */comment-page-*
Алекс, я скопировала у Вас эту часть robots. Но когда я нажимаю под заметкой «комментарии», то эта страница у меня индексируется (получается дублированный контент?) А у Сергея (Бери Максимум) на данный момент какой-то robots странный…
Ульяна, я не понял эту часть – «Но когда я нажимаю под заметкой «комментарии», то эта страница у меня индексируется (получается дублированный контент?)». Если можно раскрыть вопрос по другому.
Например, у меня открыта запись. Под ней указаны: дата публикации, комментарии, рубрика, метки (такая тема). Я загружаю в Яндекс.Метрике свой robots.txt и затем проверяю (список URL): дату, рубрику, метки – запрещено к индексации (как указано в роботсе), а проверяю комменты – а они индексируются. Раскрыла вопрос?
Роботы этот файл ищут в первую очередь. Примеров robots.txt в сети конечно много, но в любом случае, нужно ознакомиться с командами, чтобы правильно составить код под себя.
Привет, друзья! Благодарен, что вы стали читателем этого блога. В блоге пишу на темы: как создать блог/сайт, настройка плагинов WordPress, сервисы. Поделюсь с вами своим личным опытом.
Спасибо за статью
Как раз составила для блога файл robots.txt и проверить его собиралась. Теперь буду знать как. +++