Noindex nofollow – два брата для регулирования ботов поисковых систем
Для начала зададим определения, что это такое noindex и nofollow, чтобы понимать весь дальнейший процесс их постановки внутри кода.
Метатег noindex – запрещает к индексации (обходу) страницу целиком поисковыми системами либо отдельный участок. Простыми словами ноуиндекс запрещает брать в индекс участок документа либо всю ее, применяется для внутренней оптимизации.
Метатег nofollow – атрибут работающий только с ссылками, то есть тегом <a>, он запрещает переходить роботам ПС по URL и передавать при этом вес другой внутренней странице или внешнему сайту. В основном применяется для внешней оптимизации.
Разница у них огромная – первый регулирует сам документ, второй урлы и переходы по ним. Многие спрашивают про Noreferre и Noarchive, это тоже значения robos в meta, о них поговорим в других статьях.
Noindex
Тег noindex используется, чтобы запретить индексацию какой-то определенной части текста. Следует помнить, что ссылки и изображения этот тег от поисковиков не закрывает. Если все-таки попытаться закрыть этим тегом анкор со ссылкой, то под индексацию не попадет только анкор (словосочетание), а сама ссылка однозначно попадает в индекс.
Noindex запрещает индексацию части кода, находящуюся между открывающим и закрывающим тегами. Вот пример:
<noindex> Этот текст Яндекс не индексирует </noindex>
Естественно, его не стоит путать с мета-тегом ноиндекс, который прописывается вначале страницы, они имеют различные задачи. Если взять мета-тег <meta name=»robots» content=»noindex,nofollow»> , то он запрещает индексирование всей страницы и переход по ссылкам. Этот запрет можно также прописать в файле robots.txt и такие страницы поисковыми роботами не будут учтены.
Валидный noindex
Некоторые HTML-редакторы noindex не воспринимают, поскольку он не является валидным. К примеру, в WordPress визуальный редактор его попросту удаляет. Но валидность тегу все же придать можно:
<!— noindex —> Текст закрыт валидным ноиндекс <!—/ noindex —>
Если в HTML-редакторе прописать тег в такой форме, то он будет абсолютно валиден и можно не бояться, что он исчезнет. Тег noindex воспринимает только поисковый бот Яндекса, робот Гугла на него абсолютно не реагирует.
Некоторые оптимизаторы допускают ошибку, когда советуют закрыть все ссылки такими тегами noindex и nofollow, но об этом будет рассказано ниже. Что касается работы тега ноиндекс, то она безотказна. Абсолютно вся заключенная в этих тегах информация в индекс не попадает. Но некоторые вебмастера утверждают, что иногда все же текст внутри этих тегов индексируется ботами – да, действительно такое случается.
А это все потому, что Yandex изначально индексирует полностью весь html-код страницы, даже находящийся внутри noindex, но затем происходит фильтрация. Поэтому вначале действительно проиндексирована вся страница, но через некоторое время html-код срабатывает и тест, заключенный в этот тег «вылетает» из индексации.
Можно даже не соблюдать вложенность тега noindex – он все равно сработает (об этом рассказывается в справочной Яндекса). Не забывайте, используя, открывающий <noindex> в конце исключаемого текста поставить закрывающий </noindex>, а то весь текст, идущий после тега не проиндексируется.
Закрываем от индексации часть текста
Очень часто случается такая ситуация, что необходимо закрыть от индексации Определенные части контента:
- меню
- текст
- часть кода.
- ссылку
Скажу сразу, что распространенный в свое время метод при помощи тега <noindex> не работает.
<noindex>Тут мог находится любой контент, который нужно было закрыть</noindex>
Однако существует альтернативный метод закрытия от индексации, который очень похож по своему принципу, а именно метод закрытия от индексации при помощи Javascript.
С помощью кода в function
Требует навыков редактирования кода темы. В файл function активной, а лучше дочерней, темы добавляем вниз такой код.
Код в function.php
Не забываем обновлять документ и проверять работу. Лучше использовать соединение через FTP для надежности, чтобы можно было вернуть исходную конфигурацию и удалить ошибку при возникновении поломки. Для лучшего понимания материала приложу свое видео.
1. Зачем закрывать сайт или страницу от индексации
После релиза сайта его страницы сканируются роботами при первом обходе. Однако если дизайн и контент страниц пока ещё не оптимизированы для продвижения, рекомендуется на время доработок закрыть сайт от поисковиков. В каких ещё ситуациях нужен запрет на индексацию:
- Создание мобильной версии на отдельном домене. В этом случае появляются дубли страниц, которые поисковики могут зафиксировать.
- Тестирование сайта на другом домене. Если вы создали аналог основного сайта и проводите на нём тестовые работы, поисковые роботы могут воспринять страницы сайтов как дубликаты. В результате основной сайт может потерять позиции.
- Смена дизайна, параметров, контента. На время работ по улучшению интерфейса и юзабилити закройте страницы сайта от индексации полностью или частично.
Запрет на сканирование — часто временное явление. После окончания технических работ вы сможете вернуть сайт в прежнее состояние. Такой шаг помогает сохранить позиции в выдаче.
Как скрыть от поисковых систем часть страницы?
На практике скрыть контент сайта от индексации можно используя разные способы.
Наиболее распространенным способом по скрытию текста от поисковых систем является использование подгрузки текста по параметру в хеш-ссылке. Исходя из заявлений Google, протокол HTTP/HTTPS не был разработан для такого использования, поэтому при использовании данного метода индексация не происходит.
Наиболее распространенным способом по скрытию ссылки от поисковых систем является использование контейнера div при создании ссылки.
Но что делать, если речь идет о создании системы для скрытия контента?
Какую технологию использовать? Основные требования следующие:
- У пользователя на экране должен отображаться весь контент страницы сайта;
- Для поисковой системы должен отдаваться не весь контент страницы сайта;
- Способ должен быть условно белым, чтобы сложнее было найти повод для санкций.
- Не поддерживается движком поисковой системы;
- Поддерживается популярными браузерами.
Рекомендованный материал в блоге MegaIndex по теме обновления краулера по ссылке далее — Google обновил поисковый краулер. Что изменилось? Как это повлияет на ранжирование?
Все приведенные способы основаны на принципах работы поискового краулера.
Но лазейка все еще есть. В результате обновления стала известна информация о принципах работы поискового краулера, используя которую можно сделать выводы о том, какие именно технологии поисковый робот не поддерживает, а значит не передает в систему ранжирования.
До начала этапа ранжирования происходит ряд процессов.
Весь процесс обработки информации до этапа ранжирования выглядит так:
После рендеринга происходит передача данных в систему ранжирования.
Если после рендеринга часть документа отсутствует, значит данная часть документа не будет участвовать и в ранжировании.
Теперь требуется разобраться с тем, какую технологию пока еще не поддерживает движок рендеринга. Применяя такую технологию на практике можно скрывать часть содержания страниц сайта от поисковой системы.
Итак, скрыть любую часть страницы от поисковой системы можно используя так называемые service workers.
Что такое сервис-воркеры? Сервис-воркеры — это событийный управляемый веб-воркер, регистрируемый на уровне источника и пути. Сервис-воркер может контролировать сайт, с которым ассоциируется, перехватывать и модифицировать запросы навигации и ресурсов.
Да, я вижу ваши лица. Подождите пугаться.
Если упростить, то сервис-воркером является программируемый сетевой проксификатор.
Иными словами, применяя сервис-воркер можно контролировать контент, который передаются пользователю.
В результате применения сервис-воркеров контент может изменяться. Поисковая система же обрабатывает такие корректировки, так как не поддерживает выполнения таких скриптов.
Почему метод эффективен в применении на практике? Сервис-воркеры поддерживаются всеми популярными браузерами и не поддерживаются движком рендеринга поисковой системы Google, через который данные передаются в систему ранжирования.
Следующие браузеры поддерживают сервис-воркеры:
- Chrome;
- Android Chrome;
- Opera;
- Safari;
- iOS Safari;
- Edge;
- Firefox.
- Найти элементы, которые требуется скрыть от поисковой системы;
- Если такие элементы есть, то передать задачу в отдел разработки и оповестить про способы реализации на практике;
- Протестировать работу на примере одного документа путем использования программного решения Chrome Dev Tools или путем анализа кеша страницы в Google после индексации.
Заключение
Настройка индексирования отдельных страниц — важный компонент поисковой оптимизации. Вне зависимости от технических особенностей каждый сайт имеет документы, нежелательные для попадания в индекс. Какой контент лучше скрывать от роботов и как это делать в каждом конкретном случае — мы подробно рассказали выше. Придерживаясь этих рекомендаций, вы оптимизируете ресурсы поисковых краулеров, обеспечите быстрые и эффективные обходы приоритетных страниц, и что самое важное — обезопаситесь от возможных проблем с ранжированием.