Поисковые алгоритмы ранжирования сайтов - страница 15
Индекс поисковой системы содержит множество ключевых слов и последовательностей ключевых слов, связанных со списком всех веб-страниц, на которых найдены ключевые слова.
Индекс имеет некоторое концептуальное сходство с таблицей поиска базы данных, которая, возможно, изначально была структурой, используемой для поисковых систем. Но основные поисковые системы, вероятно, теперь используют что-то на пару поколений более сложное для достижения цели поиска ключевого слова и возврата всех URL-адресов, относящихся к слову.
Использование функциональности для поиска всех страниц, связанных с ключевым словом, является архитектурой, позволяющей экономить время, поскольку для поиска всех веб-страниц по ключевому слову в режиме реального времени каждый раз, когда кто-то ищет его, потребуется слишком много времени.
Не все просканированные страницы останутся в поисковом индексе по разным причинам. Например, если страница содержит метатег robots с директивой «noindex», он указывает поисковой системе не включать страницу в индекс.
Точно так же веб-страница может включать X-Robots-Tag в свой HTTP-заголовок, который указывает поисковым системам не индексировать страницу.
В других случаях канонический тег веб-страницы может указать поисковой системе, что страница, отличная от текущей, должна считаться основной версией страницы, в результате чего другие, неканонические версии страницы будут исключены из индекса.
Google также заявил, что веб-страницы не могут быть сохранены в индексе, если они имеют низкое качество (страницы с повторяющимся содержанием, страницы с недостаточным содержанием и страницы, содержащие полностью или слишком много нерелевантного контента).
Также существует долгая история, которая предполагает, что веб-сайты с недостаточным коллективным рейтингом PageRank могут не индексировать все свои веб-страницы – предполагая, что более крупные веб-сайты с недостаточным количеством внешних ссылок могут не быть тщательно проиндексированы.
Недостаточный краулинговый бюджет также может привести к тому, что веб-сайт не проиндексирует все свои страницы.
Важным компонентом SEO является диагностика и исправление случаев, когда страницы не индексируются. По этой причине рекомендуется тщательно изучить все различные проблемы, которые могут ухудшить индексацию веб-страниц.
РЕЙТИНГ
Ранжирование веб-страниц – это этап обработки поисковыми системами, которому, вероятно, уделяется наибольшее внимание.
Как только поисковая система получает список всех веб-страниц, связанных с определенным ключевым словом или ключевой фразой, она должна определить, как она будет упорядочивать эти страницы при выполнении поиска по ключевому слову.
Если вы работаете в сфере SEO, вы, вероятно, уже хорошо знакомы с тем, что включает в себя процесс ранжирования. Процесс ранжирования поисковой системы также называют «фильтрацией», или «индексацией».
Сложность, связанная с стадией ранжирования поиска, настолько велика, что одна только она заслуживает описания в нескольких книгах.
Критериев, влияющих на ранжирование веб-страницы в результатах поиска, очень много. Сигналы, которые Google снимает с веб-страницы, исчисляются тысячами. Сигнала собраны в группы, которые будем называть векторами или алгоритмами. А алгоритмы сгруппированы в фильтры.
Например, наибольшее количество алгоритмов ранжирования собраны в фильтры, такие как PENGUIN, HUMMINGBIRD и POSSUM.