Поисковые алгоритмы ранжирования сайтов - страница 13
Многие проблемы могут помешать роботам поисковых систем, сканировать страницы, что является отличной причиной для изучения деталей, связанных с этим этапом.
Во-первых, поисковая система должна в какой-то момент найти ссылку на страницу, прежде чем она сможет запросить страницу и посетить ее. (Было известно, что при определенных конфигурациях поисковые системы подозревают, что могут быть другие, нераскрытые ссылки, такие как один шаг вверх в иерархии ссылок на уровне подкаталога или через некоторые ограниченные внутренние формы поиска на веб-сайте.)
Поисковые системы могут обнаруживать ссылки веб-страниц следующими способами:
· Когда администратор веб-сайта отправляет ссылку напрямую или раскрывает карту сайта поисковой системе.
· Когда другие сайты ссылаются на страницу.
· Через ссылки на страницу с собственного веб-сайта, при условии, что на веб-сайте уже есть некоторые проиндексированные страницы.
· Посты в социальных сетях.
· Ссылки найдены в документах.
· URL-адреса, найденные в письменном тексте и не связанные гиперссылками.
· Через метаданные различного рода файлов.
· И более.
В некоторых случаях веб-сайт дает указание поисковым системам не сканировать одну или несколько веб-страниц через свой файл robots. txt, который находится на базовом уровне домена и веб-сервера.
Файлы robots. txt могут содержать в себе несколько директив, указывающих поисковым системам, что веб-сайт запрещает сканирование определенных страниц, подкаталогов или всего веб-сайта.
Указание поисковым системам не сканировать страницу или раздел веб-сайта не означает, что эти страницы не могут отображаться в результатах поиска. Предотвращение их сканирования таким образом может серьезно повлиять на их способность хорошо ранжироваться по ключевым словам.
В других случаях поисковые системы могут с трудом сканировать веб-сайт, если сайт автоматически блокирует ботов.
Это может произойти, когда системы веб-сайта обнаружат, что:
· Бот запрашивает больше страниц за определенный период времени, чем человек.
· Бот одновременно запрашивает несколько страниц.
· IP-адрес сервера бота находится в пределах зоны, которую веб-сайт должен исключить.
· Запросы бота и/или запросы других пользователей на страницы перегружают ресурсы сервера, что приводит к замедлению обслуживания страниц или ошибкам.
Однако боты поисковых систем запрограммированы на автоматическое изменение коэффициента задержки между запросами, когда они обнаруживают, что сервер изо всех сил пытается не отставать от спроса.
Для крупных веб-сайтов с часто меняющимся содержимым страниц «краулинговый бюджет» может стать фактором, определяющим, смогут ли поисковые роботы сканировать все страницы.
По сути, Интернет – это что-то вроде бесконечного пространства веб-страниц с разной частотой обновления. Поисковые системы могут не успеть посетить каждую страницу, поэтому они расставляют приоритеты для сканируемых страниц.
Веб-сайты с огромным количеством страниц или сайты, которые медленнее реагируют, могут израсходовать свой доступный краулинговый бюджет до того, как будут просканированы все их страницы, если они имеют относительно более низкий ранговый вес по сравнению с другими веб-сайтами.
Полезно отметить, что поисковые системы также запрашивают все файлы, которые используются для создания веб-страницы, такие как изображения, CSS и JavaScript.
Как и в случае с самой веб-страницей, если дополнительные ресурсы, участвующие в создании веб-страницы, недоступны для поисковой системы, это может повлиять на то, как поисковая система интерпретирует веб-страницу.