Современные реалии Яндекса или правильный robots.txt [Antonblog]

В связи с последними событиями (как-будто, новый АГС придумали, но циферки просто кончились – реальные АГС – только АГС-17 и АГС-30), а именно новой волной выпадания сайтов из индекса Яндекса, хочу поделиться правильными (на мой взгляд :) ) файлами robots.txt для DLE и WordPress.

Если раньше robots.txt я использовал, в основном, только для указания директивы hosts (чуть позже, когда наклепал много сайтов на ДЛЕ, начал ещё раздел user закрывать от индексации, так как много спам ссылок в профилях было), то теперь, волей-неволей, приходиться работать с этим файлом более плотно, во избежании вылета сайта из индекса.

Теперь же ситуация изменилась в корне – сейчас необходимо на новом (относительно новом) сайте закрыть все дубли контента от индексации. Дубли контента появляются в следующих случаях:

  • Использование тегов (меток) на сайте
  • Использование календаря, архивов материалов
  • В WordPress ещё и использование категорий, но это спорный вопрос

Что избежать дублирование контента, не нужные нам разделы нужно закрыть от индексации инструкцией в  файле robots.txt. Мой robots.txt для DLE (сегодня на 10+ сайтах менял, устал аж :) ):

User-agent: *
Disallow: /user/
Disallow: */rss.xml
Disallow: /tags/
Disallow: /2009/
Disallow: /2010/

User-agent: Yandex
Host: site.ru
Disallow: /user/
Disallow: */rss.xml
Disallow: /tags/
Disallow: /2009/
Disallow: /2010/

user – профили пользователей, минимум оригинальной информации – максимум спама, в топку.

rss.xml – это из-за ошибок в панели вебмастера (формат документа не поддерживается), всё равно в индекс не возьмут, в топку.

tags – злобные теги, все беды из-за них, туда же.

2009-2010 – архивы новостей, календарь, лишнее дублирование контента, закрываем от индексации.

Мой robots.txt для WordPress:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /clickheat/
Disallow: */comment-page-*
Disallow: /xmlrpc.php
Disallow: /20*
Disallow: */*?replytocom*

User-agent: Yandex
Host: antonblog.ru
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /clickheat/
Disallow: */comment-page-*
Disallow: /xmlrpc.php
Disallow: /20*
Disallow: */*?replytocom*