Поддержка robots.txt

Что такое robots.txt?

Поисковая система анализирует страницы веб-ресурсов и все ссылки на них, чтобы занести актуальную информацию в свою базу данных. Эта процедура называется индексированием веб-ресурса.

Для управление индексированием веб-ресурса используется файл robots.txt., который должен находиться в корне веб-ресурса. Например, https://example.com/robots.txt В этом файле указывается набор директив, которые влияют на поведение поисковой системы. Например, можно запретить индексирование страниц, содержащих конфиденциальные данные.

Регистр имени файла и содержимого файла имеет значение.

Поисковый робот – это программа поисковой системы, которая осуществляет индексирование веб-ресурсов. У одной поисковой системы может быть несколько поисковых роботов, каждый из которых имеет свое предназначение. Для управления поведением поискового робота через robots.txt можно указывать его уникальный идентификатор – User-аgent.

Пример содержимого файла robots.txt

# Запрет индексирования всех страниц веб-ресурса для поискового робота YandexBot,
# кроме страниц начинающихся с '/cgi-bin'
User-agent: YandexBot
Allow: /cgi-bin
Disallow: /

Политика NGENIX в отношении файла robots.txt

При поступлении запроса на Платформу за файлом robots.txt с использованием вашего доменного имени, например, https://example.com/robots.txt, ответ будет содержать файл robots.txt, загруженный с сервера оригинации.

Если запрос происходит с использованием доменного имени NGENIX, например, https://12345.cdn.ngenix.net/robots.txt, то Платформа предоставит собственный файл robots.txt, который запрещает индексацию страниц веб-ресурса на сервисных доменах NGENIX популярным поисковым роботам: Google, Yandex, Bing, Yahoo и Baidu.

Содержимое файла robots.txt, предоставляемого Платформой

User-agent: YandexBot
User-agent: Googlebot
User-agent: Bingbot
User-agent: Slurp
User-agent: Baiduspider
Disallow: /

Рекомендации по составлению собственного файла robots.txt

  1. Запретите индексирование разделов веб-ресурса, содержащих конфиденциальные данные, результаты поиска, статистику посещаемости, дубликаты страниц, лог-файлы, страницы базы данных и прочей информации, попадание которой в поисковые системы нежелательно.

  2. Укажите главное доменное имя веб-ресурса с помощью редиректа с HTTP-кодом 301. В противном случае одинаковые данные, доступные по разными доменным именам, будут проиндексированы поисковым роботом многократно и создадут дополнительную нагрузку на сервер оригинации.

  3. Убедитесь, что файл robots.txt настроен корректно. Если файл составлен с ошибками, то поисковый робот будет считать, что доступ ко всему содержимому веб-ресурса открыт.

Мы рекомендуем обратиться к документации поисковых роботов, которые представляют значение для вашего веб-ресурса.

Last updated