Июль 2017  
12
3456789
10111213141516
17181920212223
24252627282930
31

8 Июня

Gogetlinks: о долгих апдейтах Яндекса

Вот уже 22 дня оптимизаторы и вебмастера с нетерпением ждут апдейта от Яндекса. На текущий момент – это рекорд Яндекса по нерасторопности обновления основного индекса с начала 2009 года, когда апдейта не было 1 месяц и 4 дня. Почему в отличие от Гугла в Яндексе приходится так долго ждать индексацию? Давайте рассмотрим технический аспект индексации в Яндексе. Я также расскажу, как Gogetlinks будет действовать, если апдейт не будет запущен в ближайшие дни.

Как Яндекс индексирует сайты

Процесс индексации описан в документе Индексирование интернета Индексирование интернета на сайте Яндекса.
Остановимся на самых главных моментах:

«Поисковый индекс, данные о типе документов, кодировке, языке и сохраненные копии документов вместе составляют поисковую базу. Она обновляется постоянно, но, чтобы это обновление стало доступно пользователям, её нужно перенести на «базовый поиск». Базовый поиск — сервера, которые отвечают пользователям на запросы. Туда переносится не вся поисковая база, а только её полезная часть — без спама, дубликатов сайтов (зеркал) и других ненужных документов.

Обновление поисковой базы из хранилища основного робота попадает в поиск «пакетами» — раз в несколько дней. Этот процесс создаёт дополнительную нагрузку на сервера, поэтому производится ночью, когда к Яндексу обращаются на порядок меньше пользователей. Сначала новые части базы помещаются рядом с такими же частями из прошлого обхода. Затем они проверяются по целому ряду факторов, чтобы обновление не ухудшило качество поиска. Если проверка прошла успешно, новая часть базы заменяет собой старую».

Жирным выделено главное. То есть у Яндекса одновременно существует два параллельных индекса интернета. Один из них – актуальный не очищенный, который меняется в режиме реального времени, пока поисковые роботы проверяют и скачивают страницы со всего интернета.

Второй индекс – это очищенный индекс, по которому происходит поиск, когда пользователь отправляет поисковый запрос. В этом индексе нет забаненных сайтов, исключены спам-страницы и зеркала.

Апдейтом называется процесс, когда документы из первого актуального индекса попадают во второй очищенный, по которому и происходит поиск. Это и есть – узкое место всей системы, требующее больших вычислительных мощностей. Поэтому то апдейт происходит не каждый день в целях экономии вычислительных мощностей.

Gogetlinks: о долгих апдейтах Яндекса

И еще один неприятный момент — в апдейт Яндекс выкладывает документы, проиндексированные роботом не до текущего момента, а до предыдущего апдейта. Например, апдейты были 1, 10 и 20 числа. Так вот 10 числа в основной «очищенный индекс» попадут только документы, которые робот нашел до 1 числа, а 20 числа — только те документы, которые робот нашел с 1 по 10 число. В итоге, индексация новых страниц на среднем сайте занимает обычно не менее 2-3 недель.

Очевидно в отличие от Яндекса Google обновляет свой «очищенный» индекс постоянно, но не целиком, а блоками. При такой схеме нагрузка на мощности равномерно распределяется в течение всего, дня, недели, месяца, в любой момент времени индекс более актуален. Каждый из нас замечал, то Google гораздо быстрее индексирует новые документы.

Реакция Gogetlinks на долгие апдейты

Теперь должно быть понятно, что несмотря на долгое отсутствие апдейта, значительная часть новых ссылок уже проиндексирована, но не находится в основном индексе. Необходимо дождаться апдейта, чтобы в индексе появились страницы, добавленные до 16 мая. И только во второй апдейт появятся более новые страницы.

Мы уже продлили сроки индексации в связи с рекордно долгим отсутствием апдейта, также были продлены сроки на решение проблем со страницами, выпавшими из индекса. И готовы при необходимости добавить столько времени, сколько потребуется, в связи с задержкой апдейта.

Это очень важно для оптимизаторов, так как позволяет избежать мерцания, то есть снятия новых ссылок, которые по факту уже известны Яндексу, но не выложены в основной индекс. Это еще более важно для вебмастеров, так как связано с их доходами. И в этом плане мы максимально защищаем интересы обеих сторон.