И запрет индексации всего сайта
Robots.txt и запрет индексации всего сайта
Хотите узнать, как запретить индексацию сайта в robots.txt и с помощью других инструментов? Тогда представленный материал – именно для вас.
Безусловно, владельцы сайтов борются за то, чтобы их ресурс как можно быстрее проиндексировался поисковыми системами. Но бывают случаи, когда необходимо, чтобы поисковый бот на какое-то время не посещал ресурс и не добавлял в свой индекс материалы с вашего web ресурса. Такими случаями могут быть:
- недавнее создание ресурса, когда на нем еще нет никакой полезной информации;
- необходимость внесения обновлений (например, смена дизайна сайта);
- наличие скрытых или секретных разделов или полезных ссылок, которые не хотелось бы передавать поисковым ботам.
Можно закрыть весь сайт целиком или же его отдельные части:
- отдельный абзац или ссылка;
- формы для ввода информации;
- админская часть;
- страницы пользовательских профилей и регистраций;
- дубликаты страниц;
- облако тегов и пр.
Есть много способов, с помощью которых можно закрыть сайт от индексации. Редактирование файла robots.txt – один из них. Мы рассмотрим этот способ и еще два наиболее популярных и простых.
Как закрыть сайт от индексации для Яндекса, Google и всех поисковых систем в robots.txt
Редактирование файла robots.txt – один из самых надежных и быстрых способов установить этот запрет для поисковых системам на какое-то время или же навсегда. Что для этого нужно сделать:
- Создание файла robots.txt. Для этого нужно создать обычный текстовый документ с расширением .txt, присвоить ему имя «robots».
- Созданный файл загрузить в корневую папку своего блога. Если сайт создан на движке WordPress, то эту папку можно найти там, где находятся папки wp-includes, wp-content и пр.
- Непосредственно установка запрета индексации для поисковиков.
Запрет индексации в robots.txt сайта можно устанавливать как для конкретных поисковых систем, так и всех поисковиков. Мы рассмотрим разные варианты.
Чтобы закрыть сайт от индексации поисковыми ботами Google, потребуется в файле robots.txt написать следующее:
- User-agent: Googlebot
- Disallow: /
Для того, чтобы проверить, закрылся ли сайт от индексации, создается аккаунт и добавляется нужный домен в Google Webmaster. Здесь предусмотрена функция проверки.
После этого будут показаны результаты. Если сайт запрещен для индексации, то будет написано «Заблокировано по строке» и указано, какая строка блокирует индексацию. Если же какие-то действия по запрету индексации поисковыми ботами Google были выполнены некорректно, то будет подписано «Разрешено».
Следует учесть, что невозможно с помощью robots.txt поисковой системе Google на 100% запретить индексацию. Это своего рода рекомендация для Гугла, так как он сам решит, выполнять ли ему индексацию отдельного документа, или нет.
Чтобы закрыть материалы сайта от индексации Яндексом, в файле robots.txt нужно ввести следующее:
- User-agent: Yandex
- Disallow: /
Для проверки статуса ресурса его нужно добавить в Яндекс Вебмастер, где затем нужно ввести несколько страниц со своего сайта и нажать кнопку «Проверить». Если все получилось, в строке будет высвечиваться надпись «Запрещен правилом».
Можно также установить запрет на индексацию вашего сайта одновременно для всех поисковых систем. Для этого, опять же, открываем файл robots.txt и прописываем в нем такую строку:
- User-agent: *
- Disallow: /
Проверка запрета индексации для Гугла и Яндекса выполняется по вышеописанной схеме в Google Webmaster и Яндекс Вебмастер соответственно.
Чтобы увидеть свой файл robots.txt, нужно перейти по адресу Вашдомен.ru/robots.txt. Здесь будет отображаться все, что было прописано. Бывает так, что появляется ошибка 404. Это говорит о том, что было выполнено что-то не так при загрузке своего файла.
Запрет индексации ресурса при помощи панели инструментов
Способ закрытия сайта от индексации с помощью панели инструментов подойдет только для тех ресурсов, которые были сделаны на Вордпресс.
Порядок действий простой и быстрый:
- Откройте «Панель управления», пройдите в «Настройки» – «Чтение»;
- Выставьте галочку в окошке «Рекомендовать поисковым машинам не индексировать сайт».
- Сохранить изменения.
Выполнение данных действий – всего лишь рекомендация для поисковых машин. А то, будут ли индексироваться или не индексироваться материалы ресурса, они решают самостоятельно. В настройках видимости сайта даже присутствует специальная строка: «Поисковые машины сами решают, следовать ли Вашей просьбе». Отметим, что Яндекс обычно «слушается», а Гугл может поступать по своему усмотрению и все равно в некоторых случаях индексировать сайт, несмотря на рекомендацию.
Как закрыть сайт от индексации? Закрываем через файл robots.txt
Каждый SEO-специалист обязан знать основы составления правил для файла robots.txt. Иногда требуется полностью закрыть сайт от индексации (например, тестовую копию или сайт, который находится в разработке), а также постоянно требуется следить за актуальностью файла и закрывать от индексации мусорные и технические страницы.
Начнём с основ, спецсимволы для файла robots.txt:
- * — любое кол-во любых символов
- $ — отменяет * и фиксирует строку
Важно отметить: если в конце правила нет знака $, то ПС считают, что там стоит *
Как полностью закрыть сайт от индексации?
Это можно сделать при помощи создания в корне сайта текстового файла robots.txt. В этом документе требуется прописать следующий код:
Имена основных роботов:
- Yandex основной индексирующий робот Яндекса;
- YandexImages индексирует изображения;
- YandexMetrika робот Я.Метрики;
- YandexMobileBot анализирует верстку страницы для мобильного поиска;
- Googlebot основной индексирующий робот Google;
- Googlebot-Image отвечает за индексацию изображений;
- Googlebot-Video индексирует видео;
- Slurp робот Yahoo!;
- MSNBot отвечает за поиск в системе Bing, разработанной корпорацией Microsoft;
- И пр.
Закрытие отдельной папки от индексации поисковыми роботами
Если требуется скрыть от поисковых систем отдельную папку Например, https://site.ru/blog/, то нужно указать:
User-agent: *
Disallow: /blog/
Если же какие-то файлы, содержащиеся в закрытой папке, требуется оставить открытыми для индексации, то можно одновременно применить правила Allow и Disallow:
User-agent: *
Disallow: /blog/
Аllow: /blog/file.php
Как закрыть от индексации отдельную страницу?
Предположим, что нам нужно закрыть страницу https://site.ru/blog/ от индексации, но при этом вложенные страницы (т.е. страницы вида https://site.ru/blog/story1/ и https://site.ru/blog/topic1/story/ и пр.) должны быть доступны для индексации, для этого добавляем в файл:
User-agent: *
Disallow: /blog/$
Закрытие отдельного файла в поисковых системах
Чтобы временно закрыть какой-то файл от индексации в ПС, необходимо в документе robots.txt сделать следующую запись:
User-agent: *
Disallow: /blog/file.php
Закрытие от индексации изображений
При необходимости можно скрыть от поисковых систем не только документы, но и изображения в популярных форматах .jpg, .png и .gif. Для этого в файле robots.txt прописываем дополнительные данные:
User-Agent: *
Disallow: *.jpg
Disallow: *.png
Disallow: *.gif
Хотя, мы наоборот советуем открывать изображения для индексации, если по ним вас могут найти в Яндекс или Google картинках и перейти на сайт, для этого используем директиву «Аllow».
User-Agent: *
Allow: *.jpg
Allow: *.png
Allow: *.gif
Закрытие от поисковых систем поддомена
Все поддомены, находящиеся на сайте, имеют собственные файлы robots.txt. Как правило, такие файлы располагаются в корневой папке. Если такого файла нет, то его нужно создать. Если же такой файл есть, то нужно скорректировать его, указав следующий код:
Дополнительные директивы в файле robots.txt
Поисковая система Яндекс поддерживает целый ряд дополнительных директив, которые тоже можно использовать во время внесения изменений в файл robots.txt:
- «Crawl-delay:». Данная директива задает минимальный период времени в секундах. Это время обозначает отрезок между окончанием загрузки одной и началом загрузки следующей страницы для поисковых роботов.
Например,
Crawl-delay: 1
- «Clean-param:». Используя эту директиву, можно указывать GET-параметры, не влияющие на отображение контента сайта. Это могут быть UTM-метки или ref-ссылки.
Например,
Clean-param: utm /dir/blog.php
- «Sitemap:». С помощью этой директивы, можно указывать путь к XML-карте сайта.
Например,
Sitemap: https://site.ru/sitemap.xml
Использование мета-тега name=»robots» для закрытия сайта
Существует еще один эффективный способ закрыть сайт или заданную страницу от индексации. Речь идет о применении мета-тега robots, для закрытия от индексации внутри зоны документа нужно прописать следующий код:
<meta name=»robots» content=»noindex, nofollow»/>
Кроме того, при помощи данного мета-тега можно обращаться напрямую и к одному из роботов, используя вместо name=»robots» имя робота, а именно:
Для Google: <meta name=»googlebot» content=»noindex, nofollow»/> Для Яндекса: <meta name=»yandex» content=»none»/>
Как закрыть сайт от индексации на WordPress?
Все описанные ранее правила подходят для всех cms сайта, в некоторых можно сделать это через админку. Мы рекомендуем работать непосредственно с файлом robots.txt.
Проверка корректности составления файла robots.txt
Рекомендуем всегда проверять корректность составленного файла robots.txt через Яндекс Вебмастер — https://webmaster.yandex.ru/tools/robotstxt/
Это позволит минимизировать ошибки и не допустить проблем с индексированием сайта.
Как скрыть от индексации страницу целиком? 1. Через свойства страницы
2. На вкладке «Свойства» в подразделе «SEO-параметры» переведите настройку «Индексировать страницу» в состояние «Нет». Сохраните изменения.
Как закрывать страницы от индексации
Классическим инструментом для закрытия страниц от индексации является файл robots.txt. Он находится в корневом каталоге вашего сайта и создается специально для того, чтобы показать поисковым роботам, какие страницы им посещать нельзя. Это обычный текстовый файл, который вы в любой момент можете отредактировать. Если файла robots.txt у вас нет или если он пуст, поисковики по умолчанию будут индексировать все страницы, которые найдут.
Структура файла robots.txt довольно проста. Он может состоять из одного или нескольких блоков (инструкций). Каждая инструкция, в свою очередь, состоит из двух строк. Первая строка называется User-agent и определяет, какой поисковик должен следовать этой инструкции. Если вы хотите запретить индексацию для всех поисковиков, первая строка должна выглядеть так:
Если вы хотите запретить индексацию страницы только для одной ПС, например, для Яндекса, первая строка выглядит так:
Вторая строчка инструкции называется Disallow (запретить). Для запрета всех страниц сайта напишите в этой строке следующее:
Чтобы разрешить индексацию всех страниц вторая строка должна иметь вид:
В строке Disallow вы можете указывать конкретные папки и файлы, которые нужно закрыть от индексации.
Например, для запрета индексации папки images и всего ее содержимого пишем:
Чтобы «спрятать» от поисковиков конкретные файлы, перечисляем их:
User-agent: *
Disallow: /myfile1.htm
Disallow: /myfile2.htm
Disallow: /myfile3.htm
Это – основные принципы структуры файла robots.txt. Они помогут вам закрыть от индексации отдельные страницы и папки на вашем сайте.
Еще один, менее распространенный способ запрета индексации – мета-тэг Robots. Если вы хотите закрыть от индексации страницу или запретить поисковикам индексировать ссылки, размещенные на ней, в ее HTML-коде необходимо прописать этот тэг. Его надо размещать в области HEAD, перед тэгом <title>.
Мета-тег Robots состоит из двух параметров. INDEX – параметр, отвечающий за индексацию самой страницы, а FOLLOW – параметр, разрешающий или запрещающий индексацию ссылок, расположенных на этой странице.
Для запрета индексации вместо INDEX и FOLLOW следует писать NOINDEX и NOFOLLOW соответственно.
Таким образом, если вы хотите закрыть страницу от индексации и запретить поисковикам учитывать ссылки на ней, вам надо добавить в код такую строку:
Если вы не хотите скрывать страницу от индексации, но вам необходимо «спрятать» ссылки на ней, мета-тег Robots будет выглядеть так:
Если же вам наоборот, надо скрыть страницу от ПС, но при этом учитывать ссылки, данный тэг будет иметь такой вид:
Большинство современных CMS дают возможность закрывать некоторые страницы от индексации прямо из админ.панели сайта. Это позволяет избежать необходимости разбираться в коде и настраивать данные параметры вручную. Однако перечисленные выше способы были и остаются универсальными и самыми надежными инструментами для запрета индексации.
Понравился материал? Поделитесь с другими!
Более 50% вебмастеров неправильно закрывают дубли страниц сайта. Как это делать правильно
Привет, друзья! По своей статистике я определил, что больше половины вебмастеров и оптимизаторов не совсем корректно закрывают от индексации дубли страниц. Итог — более долгое нахождение мусорных документов в выдаче. Как вариант — страницы в принципе остаются проиндексированными (не удается удалить).
Ниже я укажу, какие основные ошибки совершаются при попытке удаления дублей, а также разберу правильные методы запрета для популярных типов документов.
Я не буду останавливаться на вопросах: «Почему дубли — это плохо?» и «Как их искать?». Ответы на них вы можете прочитать в посте «Последствия возникновения и поиск дублированного контента». Сегодня акцентируется внимание на корректности того или иного способа для определенных видов страниц.
Ошибки при составлении правил для запрета индексирования
Все мы люди и можем совершать ошибки. Благо в данной теме обычно они не является критичными . Я выделил 4 основные причины, по которым встречаются некорректности.
- Использование сразу несколько способов закрытия. Иногда встречается, что вебмастер закрыл страницу в robots.txt, добавил в head meta name=»robots», а ниже, для пущей надежности rel=»canonical». Когда документ запрещен в роботсе, то поисковый паук не сможет просканировать его содержимое.
- Использование только одного метода — robots.txt. Если лет 5-7 назад это был практически единственный способ для удаления дублей, то сейчас он не является самым эффективным и универсальным.
- Когда правила, по которым запрещаются страницы, являются более общими и затрагивают нормальные документы. На мой взгляд, лучше написать 2 частных правила для конкретных параметров, чем одно общее, которое потенциально может затронуть качественный контент.
- Использование некорректного метода, который не подходит для данного типа документов (например, редирект для сортировок).
Не могу сказать, что если ваш оптимизатор использует только robots, то его стоит сразу уволить. Многое зависит от ресурсов и особенностей их индексирования. Методы запрета необходимо выбирать, исходя непосредственно из нюансов проекта.
Перехожу непосредственно к корректным способам, которые позволят удалить из поиска дубли и «мусор». Методы расставлены в порядке приоритета (1 — самый приоритетный).
1. Удаление
Если это возможно, в первую очередь, нужно удалить ненужные документы. Нет материала, значит ничего не надо запрещать . Это могут быть:
- категории интернет-магазина без товаров, которые не будут возобновляться;
- система тегов. Исключение — страницы меток, оформленные должным образом: действительно, интересны посетителям, имеют качественный title, description, небольшое описание. Другими словами, не просто список связанных материалов, а по-настоящему полноценная страница.
- Бесконечно вложенные URL. Это когда в урл можно добавлять бесконечное (или конечное) количество вложений. Например, документ site.ru/post/ может быть доступен по site.ru/post/post/post/. Запрет создания подобной структуры необходимо решать на уровне сервера и/или CMS (они должны отдавать 404-ошибку).
2. 301-редирект
Весь «мусор», который нельзя удалить нужно перенаправлять на основные документы. Для этого необходимо использовать 301-редирект. Каким типам страниц подходит данный метод?
- www и без www;
- со слешем на конце или без;
- фиды от RSS;
- Урлы с параметрами, не меняющие контент;
- аттачи (прикрепленные файлы);
- товары, доступные по разным URL (обычно из-за того, что находятся в разных категориях);
- дубли главной: site.ru/index.php, domen.ru/home.html и так далее;
- версия для печати (если ссылка на нее есть только в коде);
- первая страница пагинации. Дело в том, некоторые CMS создают дубли по URL site.ru/category/ и site.ru/category/page/1/ . То есть контент первой страницы пагинации обычно соответствует содержанию категории, но URL у них получаются разные.
3. Мета-тег meta name=»robots»
Когда документ нельзя удалить или перенаправить, в работу должен включаться именно мета-тег meta name=»robots», а не столь популярный robots.txt . Эти слова подтверждаются на практике — мой эксперимент по скорости удаления сайтов из индекса, а также в теории (ниже скриншот из справки Google).
Данный метод подходит для страниц:
- сортировки (по цене, популярности и так далее);
- пагинации;
- с параметрами (когда меняется контент);
- фильтров (в случае, когда они не оформлены «качественным» образом, по типу тегов: выше писал об этом);
- версии для печати;
- CMS и дополнений (плагинов, хуков);
- поиска;
- профилей пользователей;
- мобильной версии, расположенных на поддомене.
В общем, meta name=»robots» должен использоваться во всех случаях, когда страницы не желательны для индекса поисковых систем, но желательны для посетителей. В данном пункте есть 2 уточнения:
1) Страницы, в которые добавлен этот мета-тег, не должны быть закрыты от индексации в robots.txt.
2) На многих сайтах некоторые материалы доступны только по одному пути. Например, карточки товаров доступны только со страниц пагинаций в категориях (sitemap не в счет). Если использовать стандартный запрещающий код:
то поисковому роботу будет сложнее добраться до карточек. Здесь необходимо указывать атрибут follow:
В таком случае поисковый паук не будет включать документ в индекс, но будет ходить по внутренним ссылкам и индексировать контент, находящимся за ними.
4. Атрибут rel=»canonical» элемента link
Если по каким-то причинам использование meta name robots невозможно, то на помощь приходит известный атрибут rel=»canonical». Он помогает указать индексирующему роботу основную (каноническую) страницу. Для этого на неканонических документах в рамках тега head необходимо указать следующий код с указанием URL канонического документа.
<link rel=»canonical» href=»http://site.ru/url-osnovnogo-dokumenta/» />
Данный атрибут менее предпочтителен, так как поисковые алгоритмы берут его в расчет в качестве только лишь рекомендательного (поэтому meta name=»robots» использовать приоритетнее). Именно поэтому, когда я тестировал AMP-страницы в блоге, они-то появлялись, то пропадали из индекса Яндекса.
Атрибут может подойти для запрета индексирования следующих типов страниц:
- сортировки;
- AMP;
- имеющие параметры в URL;
- пагинации (в качестве канонической указывается первая или основная: например, категория);
- версии для печати.
5. Robots.txt
Ранее самый популярный способ запрета индексации оказался в моем рейтинге лишь на 5-й позиции . Он по-прежнему хорошо работает в Яндекс, но неважно в Google. В силу своей неуниверсальности он и оказался на данной позиции.
Что-либо запрещать в robots.txt стоит тогда, когда все предыдущие методики были реализованы, но остался «мусор», который запретить не получилось. Обычно на «закуску» остаются страницы:
- с параметрами;
- CMS и плагинов;
- AMP (только для робота Яндекса до момента его поддержки данного формата);
- мобильной версии на отдельном поддомене (полный запрет + указание host основного проекта).
6. Ajax
Иногда необходимо закрыть от индексации не всю страницу, а только ее часть. В этом и поможет Ajax. Например, я уже давно закрывал в блоге сайдбар и комментарии. Поисковые технологии не стоят на месте. Google заявлял, что он научился индексировать ajax, но мой сайдбар по-прежнему отсутствует в сохраненных копиях как Гугла, так и Яндекса. Можно считать эту технологию на данный момент вполне рабочей .
Использовать Ajax можно для больших сквозных элементов: меню, повторяющийся текст. Прежде чем применять данную технологию, необходимо взвесить все «за» и «против». Так, к примеру, удалив из индекса основное меню сайта, можно лишиться веса на категориях.
Отдельного внимания заслуживает связка Ajax+JQuery. Она отлично прячет от поисковиков ссылки (как внутренние, так и внешние). Для пользователей линки показываются как обычные, а в коде они оформляются в теге span (вместо a), то есть просто текстом.
7. Noindex и rel=»nofollow»
Данные теги также хорошо всем известны. Я их объединил в один пункт.
1) <noindex></noindex> (валидный вариант <!—noindex—><!—/noindex—>) понимает только Яндекс. Предназначение — закрытие служебных участков текста. Если в поисковой выдаче зеркала Рунета в сниппетах показывается контент, например, из участков меню, то их стоит «обернуть» в noindex.
Сейчас тег активно используют в борьбе с алгоритмом Баден-Баден. В большинстве других ситуациях он малопригоден и не универсален. Некоторые применяют noindex, чтобы закрыть внешние ссылки, но подобное, конечно, не совсем корректно. Для этого существует следующий тег.
2) Атрибут rel=»nofollow» элемента a. Данный тег добавляется к ссылкам, чтобы они не учитывались поисковыми системами.
Основная ошибка вебмастеров — применение nofollow для внутренних линков. Я рекомендую применять атрибут только для исходящих линков.
8. Параметры URL, X-Robots-Tag и rel=»alternate»
Менее популярные варианты. Но раз у меня обзор всех методов, то я их решил включить .
1) Настройка индексирования параметров URL в Google Search Console. Если у вас проект с большим количеством параметров в урлах (интернет-магазин, форум), то «Гугл.Вебмастер» предоставляет возможность настройки их индексирования.
Новичкам я бы рекомендовал здесь ничего не трогать, а опытным вебмастерам и оптимизаторам, как минимум, проверить параметры и статус их индексирования.
2) X-Robots-Tag — своеобразный серверный аналог meta name=»robots». Правила использования такие же, только тег является http-заголовком (отдается при ответе сервера).
3) rel=»alternate» — данный тег рекомендует использовать Яндекс для мобильных страниц, которые расположены на поддомене. В нем необходимо указать URL полной версии документа. На самом деле, я бы не советовал использовать мобильную версию проекта на отдельном поддомене. На мой взгляд, с таким вариантом больше проблем. Адаптивный дизайн будет куда лучше .
На сегодня все! Теперь вы знаете, что к популярному robots.txt не нужно обращаться в первую очередь. Сначала нужно удалить мусорный контент, затем настроить 301-редиректы, указать для дублей meta name=»robots» или rel=»canonical», а уже потом прописывать директивы в robots.txt.
Необходимо уточнить, что в посте я описывал популярные случаи, хотя в оптимизации сайтов не редко встречаются и уникальные или редкие ситуации. Если вам попадались такие, то опишите их в комментариях — будем вместе разбираться, каким образом их корректнее закрыть от индексации .
Может быть, вы знаете другие методы удаления дублей и «мусора». Буду рад вашим отзывам и дополнениям!
P.S. Чуть не забыл про конкурс к предыдущему посту . Спасибо всем приславшим свои варианты! Победитель — Жека.
Жду номер R-кошелька на почту (можно найти в контактах) с e-mail, который был указан в комментарии.
Для чего нужно закрывать внешние ссылки
Наверняка вы все знаете, что есть такой способ заработка в интернете, как заработок на продаже ссылок. Вебмастера продают ссылки со своих ресурсов для того, чтобы зарабатывать деньги, а оптимизаторы покупают их для SEO продвижения. Поисковые системы против торговли ссылками и всячески стараются это пресекать. Наиболее часто санкциям подвергаются именно те ресурсы, которые в большом количестве размещают на своих страницах внешние индексируемые ссылки на другие сайты. В каком количестве можно размещать линки, чтобы не получить санкций, никто не знает, поэтому лучше лишний раз подстраховаться и исключить лишние ссылки со своих страниц.
За свою блоггерскую деятельность я встречал не мало блогов, которые продавали ссылки в разном количестве. И ни один из этих блогов за длительное время не смог достигнуть нормальной посещаемости, хоть и регулярно публиковал статьи и оптимизировал их. Также, встречал блоги, которые не продавали ссылки, а посещаемость у них росла как на дрожжах. Конечно, дело тут может быть и вовсе не в ссылках, но я считаю, что именно в них. Поэтому сам решил уделить этому пристальное внимание и советую вам. В первую очередь, я решил отредактировать свои старые посты и удалить все ненужные линки, а нужные, по возможности, закрыть от индексации. Кроме того, я закрыл ссылки в комментария, в сайдбаре, подвале и т.д. Как это все делается читайте в этой статье.
Как проверить, что страница запрещена к индексации?
Выбрав указанный способ и запретив индексацию сайта или его страницы, необходимо проверить, правильность выполненных действий. Узнать находится ли сейчас страница в индексе можно вручную, используя поисковый оператор url для Яндекса. Например:
Вбив этот оператор в поисковую строку, вы увидите присутствует ли страница в индексе:
В Google раньше использовался оператор info, аналогичный оператору url для Яндекса, но в 2019 году было официально объявлено о том, что это оператор отключат.
Можно выполнить проверку с помощью специальных инструментов поисковых систем. В Яндексе это инструмент для проверки ответа сервера: https://webmaster.yandex.ru/tools/server-response/
Вбив в строку «Опрашиваемый URL» проверяемый адрес, вы получите результат о том, можно ли его проиндексировать.
Google дает возможность проверять страницы в Search Console. Для этого достаточно вбить нужный адрес в строку «Проверка URL» и дождаться обработки результата.
На скриншоте видно, что страница отсутствует в индексе Google и ей запрещено сканирование по средствам файла robots.txt.