Куплю сайты с доходом от 50$\сутки. Предлагаю хорошую цену.

Лимит сканирования, PageRank, хост и Googlebot

Posted by Drakasmit on ноября 1, 2010. Новости технологий - No Comments

Интервью Matt Cutts / Eric Enge. Сканирование и индексация сайтов

Eric Enge:

Давайте поговорим о концепции лимитов на сканирование. Мое понимание этой концепции заключается в том, что зашедший на сайт Googlebot заранее знает, сколько страниц ему нужно скачать сегодня, и покидает сайт после того как заберет эти страницы.

Matt Cutts:

Я попробую рассказать о вещах, которые нужно принимать во внимание.

Во первых, понятия лимита на сканирование не существует. Многие считают, что на каждом домене сканируется только определенное количество страниц, но робот-паук работает по другому.

Для нашего робота нет жесткого лимита. Можете считать, что количество забираемых им страниц примерно зависит от вашего PageRank.

Если у вас много внешних ссылок на главную страницу, то он ее безусловно скачает. Если главная страница ссылается на другие страницы сайта, они будут получать PageRank и бот тоже их заберет.

Но по мере углубления в структуру сайта PageRank страниц будет убывать. С другой стороны, страницы с низким PageRank вашего сайта соревнуются с большим количеством страниц с таким же либо более высоким PageRank.

Очень много страниц в Сети имеют очень маленький либо близкий к нулю PageRank .

Страницы, на которые имеется много ссылок, обнаруживаются и сканируются довольно быстро. Страницы с низким PageRank будут сканироваться не так часто.

Рассматривая понятие лимитов на сканирование, нужно понимать, что нет жестких ограничений для сканирующего бота, есть концепция «нагрузки на хост».

Нагрузка на хост определяется максимальным количеством подключений, которое конкретный веб-сервер может обслуживать одновременно. Представим, что ваш веб-сервер может обслуживать только одного бота. Это позволит нам забирать каждый раз по одной странице.

Это будет очень-очень низкая нагрузка на хост, по сравнению с такими сайтами как Facebook или Twitter, которые могут выдерживать очень высокую нагрузку на хост, потому что они обслуживают очень много одновременных подключений.

Ваш сайт может находиться на виртуальном хостинге совместно с кучей других сайтов на одном IP. Теоретически, вы можете столкнуться с ограничениями в сканировании нами вашего сайта.

Если мы можем забирать за раз с вашего сайта только две страницы, и сеанс сканирования длится заданный промежуток времени, то это задает верхнюю границу количества страниц, которое мы можем забрать с этого хоста.

Eric Enge:

Т.е. два основных фактора. Первый — это PageRank, влияющий
на определение количества страниц, которое нужно забрать с сайта. Но и
нагрузка на хост тоже влияет.

Matt Cutts:

Правильно. Для большинства сайтов определяющим является первый фактор, когда PageRank и другие данные определяют, насколько глубоко мы пойдем внутрь вашего сайта.

Однако, возможно что нагрузка на хост тоже повлияет. Это подводит нас к теме дублирующегося контента. Допустим, мы забрали с сайта три страницы и обнаружили, что они являются дубликатами.

Мы выкинем две страницы из трех и оставим только одну. Такой контент не выглядит слишком хорошим. Мы можем решить, что не стоит забирать слишком много страниц с такого сайта.

Если вы сталкиваетесь с ограничениями по нагрузке на хост, и мы можем забирать с вашего сайта только конечное количество страниц, тот факт, что у вас есть дублирующийся контент, страницы с которым мы отбрасываем, означает что вы не даете другим своим страницам с хорошим, уникальным контентом появиться в нашем поисковом индексе.

Eric Enge:

Классический совет, который мы всегда даем людям, что расплатой за дублирующийся контент является ухудшение сканирования сайта.

Matt Cutts:

Да. При наличии у вас определенного PageRank, мы готовы сканировать очень много с вашего сайта. Отбрасывание некоторых страниц означает бесцельное расходование ресурсов. И это может происходить в условиях ограничений по нагрузке на хост, когда мы не можем забирать слишком много страниц.

Расшифровка стенограммы интервью

Cканирование и индексация сайтов
ЧИТАТЬ » »

Потерянный ссылочный вес и дублированный контент
ЧИТАТЬ »»

Идентификатор сессий — Session Ids и дублированный контент
ЧИТАТЬ »»

Партнёрские программы, учёт ссылок и проблема дубликатов
ЧИТАТЬ »»

Многоаспектная навигация, тег canonical
ЧИТАТЬ »»

301 редирект и его влияние на PageRank
ЧИТАТЬ »»

302 редирект и Google
ЧИТАТЬ »»

Обзор тега canonical
ЧИТАТЬ »»

Файлы KML (для Google Earth и Google Maps)
ЧИТАТЬ »»

Определения типа контента
ЧИТАТЬ »»

PageRank Sculpting — накачка PageRank
ЧИТАТЬ »»

PDF файлы, JavaScript и другие, оставшиеся вопросы
ЧИТАТЬ »»

На первую страницу
ЧИТАТЬ »»

Автор поста: Drakasmit

Ехал Google через Google... Видит Google в реке Google. Сунул Google Google в Google... Google Google Google! Черный пояс Петросяна по смешным шуткам.

Комментариев пока нет.

Написать комментарий

Cancel Reply

В моем блоге…

Вы сможете найти премиум темы wordpress, статьи о SEO (тобишь о продвижении и оптимизации сайта), несколько статей посвященные платежным системам. Узнать о том, как зарабатывать в интернети и продвигать англоязычные сайты. Есть довольно большие и хорошие посты, например, о каталоге DMOZ, есть маленькие статьи, которым впринципе тут и не место, но это ведь блог, поэтому тут написано то, что отложилось в моем маленьком мозге. Иногда повествование идет от первого лица, иногда от третьего, иногда на ТЫ, иногда на ВЫ - все зависит от настроение и цели написания. Вся инфа на сайте уник, даже та которая скопипащена - тоже уник. А ещё я есть в дмозе, в том самом про который писал статью. Но зачем я тут распинаюсь и пишу маленькими буквами - всё равно никто не читает.

Эта тема разработана Social Games
В содружестве с Best SUV | Debt Consolidation

Лимит сканирования, PageRank, хост и Googlebot

Интервью Matt Cutts / Eric Enge. Сканирование и индексация сайтов

Расшифровка стенограммы интервью

Автор поста: Drakasmit

Написать комментарий

Супер пупер поиск

Вроде рубрики

Скушай твикс

7 свежих постов

Кучка меток

В моем блоге…

Лимит сканирования, PageRank, хост и Googlebot

Интервью Matt Cutts / Eric Enge. Сканирование и индексация сайтов

Расшифровка стенограммы интервью

Автор поста: Drakasmit

Похожие записи

Google Chrome OS — операционная система Google

Почему пользователь покидает веб-ресурс

Рейтинг известности бренда SEO-компаний 2010

Пришло время тонкой настройки web-проектов под индексацию Яндекс

Написать комментарий

Супер пупер поиск

Вроде рубрики

Скушай твикс

7 свежих постов

Кучка меток

В моем блоге…