Прописываем robots.txt для WordPress

Прописываем robots.txt для wordpressВсем очередного хорошего дня!!! Сегодня наш разговор пойдет о небольшом текстовом файле, который расположен как правило на нашем сервере и о котором многие забывают, хотя этот маленький файл играет большую роль в жизни Вашего сайта. Речь идет о файле с необычным именем — robots.txt. Вначале как обычно немного теории.

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

Представляете? Пока вы спите или находитесь на учебе или на работе, многочисленная армия роботов путешествует по просторам WEB, вынюхивая и выискивая свежевыложенный контент на сайтах. И этот маленький файл является своего рода пригласительным билетом (или знаком «проход закрыт») для всех этих виртуально контентоядных.

Вот некоторые типы Яндекс-роботов:

  • Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот
  • Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок
  • Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов
  • Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
  • Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
  • Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
  • YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
  • YandexBlog/0.99.101 (compatible; DOS3.30,B) – робот, индексирующий xml-файлы для поиска по блогам.
  • YandexSomething/1.0 – робот, индексирующий новостные потоки партнеров Яндекс-Новостей.
  • Bond, James Bond (version 0.07) — робот, заходящий на сайты из подсети Яндекса. Официально никогда не упоминался. Ходит выборочно по страницам. Referer не передает. Картинки не загружает. Судя по повадкам, робот занимается проверкой сайтов на нарушения – клоакинг и пр.

Найдя и вкусив на сайте свеженького контента, робот спешит поделится информацией со своим Боссом-Основателем, Яндексоманом, который только и может жить за счет приношений своих верных OneZero-подданных. От этого Яндексоман становится больше и добрее, и в знак своего доброго расположения дает полюбившемуся сайту свою ТИЦку.

А теперь добро пожаловать в типографию по выпуску пригласительных билетов для роботов:

Вариант 1 . «Волчья стая».

В этом варианте роботы могут беспрепятственно находиться у Вас на сайте и  кушать все , что найдут. Выглядит это приглашение в файле robots.txt так:

User-agent: *
Disallow:

Или можете просто создать пустой файл «/robots.txt».

Самый опасный вариант, так как вместе с обычной информацией, боты могут съесть и секретную: ваши банковские данные, счета клиентов, тайные переговоры, зарплаты начальников и многое другое. С другой стороны если Вам скрывать нечего, то смело оставляйте ворота открытые настежь. Авось и пронесет!

Вариант 2.  «Собака — друг человека».

Роботы могут скушать только то, что предложите им Вы сами, а остальное они просто не заметят. Это делается в robots.txt например так:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Самый оптимальный вариант из серии «И волки целы, и овцы сыты». Здесь только необходимо соблюдать осторожность и по ошибке не закрыть от роботов полезные каталоги и файлы.

Вариант 3. «Стой!!! Прохода нет!»

В данном случае всех роботов мы культурненько посылаем мимо нашего сайта. А сделать это в файле robots.txt можно следующим образом:

User-agent: *
Disallow: /

Весь наш контент спасен от зоркого и кровожадного ока роботоподобных виртуальных хищников. Это мы делаем, когда наш сайт еще готовится выйти на просторы интернета и уже даже залит на хостинг, но мы еще не готовы представить миру наш шедевр. Идут отладочные и косметические работы, подчищаем все углы от нежелательного мусора. В таком виде сайт-замарашку лучше еще не показывать, а спрятать от роботов от греха подальше, а то ведь всем известно про эффект первого впечатления и что встречают по одежке…

Да, еще такой эффект бывает когда к нам зашел вирус, который самовольно отключил наш сайт от индексации. Проверяйте периодически свой robots.txt, чтобы там не было посторонних строк на запрет (или разрешения).

Ну, и напоследок, самое вкусное. Готовый  robots.txt для Worspress на примере моего сайта. Смотрим:

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /archives/date/
Disallow: /archives/tag/
Disallow: /archives/author/
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: web-profi.by

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /archives/date/
Disallow: /archives/tag/
Disallow: /archives/author/
Disallow: */trackback
Disallow: */feed
Disallow: */comments

Sitemap: http://web-profi.by/sitemap.xml
Sitemap: http://web-profi.by/sitemap.xml.gz

Можно посмотреть еще и так.

Кому нужно, берем на вооружение и пользуемся. Желаю удачи!!!

Размещено в Wordpress, Продвижение сайтов и отмечено , .

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.