Раскрутка: секреты эффективного продвижения сайтов - страница 26



Еще раз: не плодим дубли, категорически закрываем от индексации все технические страницы, в строгом соответствии с рекомендациями в «Яндексе» и Google составляем >robots.txt. На 95 % сайтов, аудит которых я проводил, >robots.txt был написан с синтаксическими (что не страшно, в общем-то) или фактическими ошибками. За последние два года мне три раза приходилось сталкиваться с тем, что сайт вылетал из индекса, поскольку веб-мастер нечаянно запретил индексацию сайта в файле robots.txt, просто написав строку >Allow без параметров, подумав, что она разрешает индексировать на сайте.

Смотрим, чтобы было с >robots.txt. В обязательном порядке проверяем, что выдает наш сервер в ответ на запрос браузера. Если ваш сервер отвечает – типичная ситуация, – что срок валидности опубликованного материала истек 1 января 1980 года, то ни о каком регулярном и системном посещении вашего сайта поисковыми роботами и речи нет. Вы можете прописать в >sitemap все параметры как положено, однако, если робот увидит эту запись в коде ответа сервера, он ваш >sitemap проигнорирует. Пустячок, но я сам был свидетелем того, как новостной сайт нормально не индексировался. После того как в полях, касающихся модификации публикаций, появились валидные даты, возникла валидная дата истечения cookie, сайт взлетел просто за счет того, что робот стал заходить практически секунда в секунду с публикуемым материалом. Грубо говоря, вы делаете технически правильный сайт и потом не платите мне 30 тыс. за то, чтобы я вам сказал: «Исправьте эту строчку в >robots.txt или закройте с помощью >noindex технические страницы».

К слову о >noindex. Он позволяет закрыть часть страницы от индексации. Проглядываю сайт, и каждое второе предложение – в >noindex. Спрашиваю у владельца сайта:

– Что это такое у тебя?

– А это я придумал такой очень хороший способ уникализации текста!

– Как так?

– Вот «Яндекс» это предложение читает, это предложение читает, это предложение, и вроде как текст уникальный.

– Да «Яндекс» у тебя все прочитает, понимаешь?

>Noindex – это «не помещать в индекс», это не значит «нельзя читать, нельзя анализировать». Это значит «прочти, проанализируй, но не помещай в индекс». На сайте «Яндекса» четко все написано в «Помощи», двоякие толкования исключены.

Очень серьезная контора, имеющая десятки сайтов по всему бывшему СССР Специфика компании вынуждает одни и те же позиции товара по 50, по 100 раз на одной странице приводить. В какой-то момент сайт перестает нормально индексироваться, все рушится, из индекса тоже много вылетает. Когда я проверяю сайт, в первую очередь смотрю >robots.txt, потом код страницы. Открываю совсем небольшую страничку – там 150 раз >noindex.

– А что это, господа?

– Понимаете, у нас слово «насос» встречается 150 раз, и мы подумали, что «Яндекс» это сочтет спамом. Только один «насос» оставили, а все остальные забрали в >noindex, чтобы поисковик их не прочитал.

Во-первых, «Яндекс» никогда прайс-лист, табличку не сочтет спамом. Он не дурак и распознает, где у вас прайс-лист, а где текст, насыщенный спамом. Он это начал понимать лет десять назад. Во-вторых, если на сайте 50 тыс. страниц и на каждой надо обработать тег по 150 раз, это же какие вычислительные мощности потребуются. В конце концов, либо роботу самому «надоело», либо человек зашел, увидел 150 >noindex, у него глаза из орбит вылезли, он – чпок! – нажал кнопку.