Поисковое продвижение сайтов - страница 15
✍ На заметку
Дорвей[36] (от англ. doorway – входная дверь, портал) или входная страница, – один из видов поискового спама. Это веб-страница, специально оптимизированная под один или несколько поисковых запросов с целью ее проникновения на высокие места в результатах поиска и дальнейшего перенаправления посетителей на другой сайт или страницу.
Дорвей не представляет никакой ценности, и пользователь даже не успевает его рассмотреть – его сразу перенаправляют на другой сайт. Контент дорвея, как правило, лишен смысла и генерируется автоматически по специальным алгоритмам (писать руками слишком затратно). Часто это просто набор фраз, в который внедрены ключевые слова.
Дорвеи – это веб-мусор, поэтому все поисковые машины беспощадно с ними борются.
3. Нужно применять правильные виды редиректов[37], чтобы не запутать поискового робота.
4. При внедрении редиректа необходимо позаботиться о том, чтобы на сайте не осталось ссылок со старым URL-адресом (с которого и выполняется перенаправление).
5. Редирект желательно ставить на максимально релевантную страницу. Например, на похожую карточку товара или ветку каталога, к которому принадлежала страница. Если это невозможно, лучше выдавать 404 ошибку, о которой мы поговорим чуть позже.
6. Редирект должен вести на действующую страницу (с кодом ответа 200 ОК). Иначе нужно вернуть 404 ошибку.
Robots.txt
Robots.txt – это специальный служебный файл, расположенный в корневом каталоге сайта[38], который является незаменимым помощником в борьбе с дублями и нецелевыми страницами, попавшими в индекс. Следует обязательно создать этот файл в соответствии с рекомендациями поисковых систем[39], а затем указать в нем страницы и данные, которые поисковым роботам не следует индексировать.
Перечислим типичные разделы и страницы с дублированным контентом, индексацию которых стоит запретить в файле robots.txt:
– страницы фильтраций и сортировок с дублированным контентом;
– страницы с UTM-метками;
– результаты поиска;
– тестовые страницы, поддомены и серверы;
– RSS-фиды.
В файл также следует добавить разделы с малоинформативным и служебным контентом:
– служебные страницы и файлы, логи сайта, страницы с внутренней статистикой, вход в административную панель, кэш страниц, подгружаемые модули и другие технические страницы;
– страницы авторизации, смены и напоминания пароля;
– «висячие узлы», то есть страницы, с которых нет ссылок на другие страницы сайта (например, версия страницы для печати);
– страницы совершения действия (добавления в корзину, оформления заказа и прочее);
– страницы с динамическими параметрами[40];
– неинформативные или пустые doc- и pdf-файлы (такие файлы лучше не просто закрывать от индексации, а удалять с сайта). При этом надо помнить, что, если такие файлы уникальны и несут полезную информацию, их не закрывают от индексации.
Приведенные списки не являются исчерпывающими. Каждый движок имеет свои особенности, поэтому желательно делать регулярную проверку, выявлять дубли и «мусорные» страницы и запрещать их к индексации.
Надо отметить, что запрещение индексации разделов через файл robots.txt без скрытия ссылок на них может приводить к тому, что эти разделы все же попадут в индекс со всеми вытекающими последствиями.
Про robots.txt профессионалы даже шутят, что он как презерватив: вроде бы защищает, но гарантий никаких.
Поэтому желательно просто убирать ссылки на нежелательные разделы из клиентской части сайта: так вы надежно скроете их и от поисковых роботов, и от пользователей.