Лимит сканирования, PageRank, хост и Googlebot

Интервью Matt Cutts / Eric Enge. Сканирование и индексация сайтов

Eric Enge:

Давайте поговорим о концепции лимитов на сканирование. Мое понимание этой концепции заключается в том, что зашедший на сайт Googlebot заранее знает, сколько страниц ему нужно скачать сегодня, и покидает сайт после того как заберет эти страницы.

Matt Cutts:

Я попробую рассказать о вещах, которые нужно принимать во внимание.

Во первых, понятия лимита на сканирование не существует. Многие считают, что на каждом домене сканируется только определенное количество страниц, но робот-паук работает по другому.

Для нашего робота нет жесткого лимита. Можете считать, что количество забираемых им страниц примерно зависит от вашего PageRank.

Если у вас много внешних ссылок на главную страницу, то он ее безусловно скачает. Если главная страница ссылается на другие страницы сайта, они будут получать PageRank и бот тоже их заберет.

Но по мере углубления в структуру сайта PageRank страниц будет убывать. С другой стороны, страницы с низким PageRank вашего сайта соревнуются с большим количеством страниц с таким же либо более высоким PageRank.

Очень много страниц в Сети имеют очень маленький либо близкий к нулю PageRank .

Страницы, на которые имеется много ссылок, обнаруживаются и сканируются довольно быстро. Страницы с низким PageRank будут сканироваться не так часто.

Рассматривая понятие лимитов на сканирование, нужно понимать, что нет жестких ограничений для сканирующего бота, есть концепция «нагрузки на хост».

Нагрузка на хост определяется максимальным количеством подключений, которое конкретный веб-сервер может обслуживать одновременно. Представим, что ваш веб-сервер может обслуживать только одного бота. Это позволит нам забирать каждый раз по одной странице.

Это будет очень-очень низкая нагрузка на хост, по сравнению с такими сайтами как Facebook или Twitter, которые могут выдерживать очень высокую нагрузку на хост, потому что они обслуживают очень много одновременных подключений.

Ваш сайт может находиться на виртуальном хостинге совместно с кучей других сайтов на одном IP. Теоретически, вы можете столкнуться с ограничениями в сканировании нами вашего сайта.

Если мы можем забирать за раз с вашего сайта только две страницы, и сеанс сканирования длится заданный промежуток времени, то это задает верхнюю границу количества страниц, которое мы можем забрать с этого хоста.

Eric Enge:

Т.е. два основных фактора. Первый — это PageRank, влияющий
на определение количества страниц, которое нужно забрать с сайта. Но и
нагрузка на хост тоже влияет.

Matt Cutts:

Правильно. Для большинства сайтов определяющим является первый фактор, когда PageRank и другие данные определяют, насколько глубоко мы пойдем внутрь вашего сайта.

Однако, возможно что нагрузка на хост тоже повлияет. Это подводит нас к теме дублирующегося контента. Допустим, мы забрали с сайта три страницы и обнаружили, что они являются дубликатами.

Мы выкинем две страницы из трех и оставим только одну. Такой контент не выглядит слишком хорошим. Мы можем решить, что не стоит забирать слишком много страниц с такого сайта.

Если вы сталкиваетесь с ограничениями по нагрузке на хост, и мы можем забирать с вашего сайта только конечное количество страниц, тот факт, что у вас есть дублирующийся контент, страницы с которым мы отбрасываем, означает что вы не даете другим своим страницам с хорошим, уникальным контентом появиться в нашем поисковом индексе.

Eric Enge:

Классический совет, который мы всегда даем людям, что расплатой за дублирующийся контент является ухудшение сканирования сайта.

Matt Cutts:

Да. При наличии у вас определенного PageRank, мы готовы сканировать очень много с вашего сайта. Отбрасывание некоторых страниц означает бесцельное расходование ресурсов. И это может происходить в условиях ограничений по нагрузке на хост, когда мы не можем забирать слишком много страниц.

Расшифровка стенограммы интервью

Cканирование и индексация сайтов
ЧИТАТЬ » »

Потерянный ссылочный вес и дублированный контент
ЧИТАТЬ »»

Идентификатор сессий — Session Ids и дублированный контент
ЧИТАТЬ »»

Партнёрские программы, учёт ссылок и проблема дубликатов
ЧИТАТЬ »»

Многоаспектная навигация, тег canonical
ЧИТАТЬ »»

301 редирект и его влияние на PageRank
ЧИТАТЬ »»

302 редирект и Google
ЧИТАТЬ »»

Обзор тега canonical
ЧИТАТЬ »»

Файлы KML (для Google Earth и Google Maps)
ЧИТАТЬ »»

Определения типа контента
ЧИТАТЬ »»

PageRank Sculpting — накачка PageRank
ЧИТАТЬ »»

PDF файлы, JavaScript и другие, оставшиеся вопросы
ЧИТАТЬ »»

На первую страницу
ЧИТАТЬ »»