X-Robots-Header и noodp ТЕГ в Google

Не знаю, в принципе тема X-Robots-Header и Тега noodp настолько тривиальна, что навряд ли есть смысл посвящать ей целую статью. Но подумав, я всё-же решила, что новое — это хорошо забытое старое и принялась за работу.

Вчера я получила е-мейл, в котором мой коллега уверял меня, что Google практически игнорирует указание « noodp» в X-Robots ТЕГ Robots Exclusion Protocol.
Обычно, если веб-мастер не хочет, что-бы Google показывал сниппет (англ. Snippet) сгенерированный в DMOZ, в голове документа прописывается МЕТА- ТЕГ

<meta name=”ROBOTS” content=”NOODP”> (для всех поисковиков)

Но эти указания в МЕТА-ТЕГЕ не работают на 100 процентов. Так например я видела, что почти у трети сайтов (в зависимости от запроса!!!) Google показывает сниппет с описанием сделанным редактором DMOZ, а не те тексты, которые внесенны в веб-документ.

Поэтому, когда Google стал поддерживать HTTP заголовок X-Robots (англ. X-Robots-Header), мы попробовали прописывать это указание там. Но увы, это тоже не всегда работает. Причём такие указания, как «noindex», работают прекрасно :) .

Что такое HTTP заголовок X-Robots

Начиная с середины 2007 года Google, как и Yahoo поддерживает метатеги в HTTP заголовке X-Robots. Смысл заключается в том, что указания для поисковых роботов, которые прописываются в голове веб-документа теперь можно прописать внутри HTTP-Headers

HTTP заголовок отличатся в принципе от МЕТА-указаний тем, что они не видны обычному пользователю. То есть если Вы захотите посмотреть источник документа в браузере (Ctrl + U для Firefox), то вы не увидите это указания. Для просмотра HTTP заголовка необходимы дополнительные плагины (Plugins) или внешние инструменты ( Tools).

МЕТА-ТЕГИ для поискового робота в HTTP заголовке X-Robots

Указания для роботов в META позволяют контролировать доступ поискового робота к отдельным веб-документам. Но работают они только для стандартных HTML страниц.

С помощью HTTP заголовков X-Robots можно контролировать не только индексацию отдельных веб-страниц, но и доступ к другим типам документов, таким как Adobe PDF файлы, видео-и аудио-файлы и другие типы документов.

Не забывайте, «X-Robots-Tag» Robots Exclusion Protoco соответствуют нормальным «meta robots tags»!

<meta name=”googlebot” content=”index,archive,follow,noodp”>
<meta name=”robots” content=”all,index,follow”>
<meta name=”msnbot” content=”all,index,follow”>

Где (небольшой экскурс в НТМЛ для полноты картины )

  • index — индексировать страницу
  • noindex — не индексировать страницу
  • follow — следовать по ссылкам со страницы
  • nofollow — не следовать по ссылкам со страницы
  • nosnippet — не показывать описания или кэшированные ссылки
  • noarchive — не заносить в кэш, или не архивировать
  • none — ничего не делать, игнорировать страницу
  • all — поведение по умолчанию — default behavior

Теперь посмотрим, как всё это мы вносим на нашу страницу
Сначала просто стандартный пример

<?php
header(’X-Robots-Tag: noarchive, nosnippet, noindex, follow’, false);
header(’X-Robots-Tag: unavailable_after: 1 Feb 2008 00:00:00 GMT’, false);
?>
<!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”>
<html>
<head>
<title>X-Robots-Tag Пример</title>
</head>
<body>
….
</body>

Выглядит примерно так:

X-Robots-Header и noodp ТЕГ

X-Robots-Header и noodp ТЕГ

Теперь посмотрим, как мы сможем контролировать отдельные файлы через .htaccess

Включить и архивировать (кэш) все PDF, Word документы, а также Flash файлы для результатов поиска:

# index and archive specified file types
<IfModule mod_headers.c>
<FilesMatch “\.(doc|pdf|swf)$”>
Header set X-Robots-Tag “index,archive”
</Files>
</IfModule>

Не индексировать PDF и Word документы, а также Flash файлы для результатов поиска:

# do not index specified file types
<IfModule mod_headers.c>
<FilesMatch “\.(doc|pdf|swf)$”>
Header set X-Robots-Tag “noindex”
</Files>
</IfModule>
или
# do not index pdf file types
<FilesMatch “\.pdf$”>
Header set X-Robots-Tag “noindex”
</Files>

Индексировать PDF и Word документы, а также Flash файлы для результатов поиска, но не кешировать и не показывать сниппет. Удалить из индекса после 4 Июля 2110 года

# expiration date with no cache and no snippet
<IfModule mod_headers.c>
<FilesMatch “\.(doc|pdf|swf)$”>
Header set X-Robots-Tag “unavailable_after: 4 Jul 2110 15:15:15 GMT”
Header set X-Robots-Tag “noarchive, nosnippet”
</Files>
</IfModule>

Как мы видим с помощью HTTP заголовка X-Robots открывается широкое поле деятельности для особо умного веб-мастера.

Можно совсем незаметно закрыть страницу для индексации поисковыми системами и начать привольную жизнь фермера ;) . Даже не используя .htaccess

Как можно проверить веб-документ на наличие HTTP заголовка X-Robots

  • Косвенно можно задуматься на эту тему, если веб-документ не имеет МЕТА-Тегов для роботов в видимом коде веб-документа
  • Также можно воспользоваться следующим расширениями для Firefox
    LiveHTTPHeaders
    Tamper Data — которым пользуюсь я

Header - http://www.seo-konkret.ru/x-robots-header

Header — http://www.seo-konkret.ru/x-robots-header

Как вы видите, я не использую HTTP заголовка X-Robots

А для тех, кто хочет побольше узнать:

  • Header Field Definitions
  • Google Robots Exclusion Protocol