Поддержка robots.txt
Поисковая система анализирует страницы веб-ресурсов и все ссылки на них, чтобы занести актуальную информацию в свою базу данных. Эта процедура называется индексированием веб-ресурса.
Для управление индексированием веб-ресурса используется файл
robots.txt.
, который должен находиться в корне веб-ресурса. Например, https://example.com/robots.txt
В этом файле указывается набор директив, которые влияют на поведение поисковой системы. Например, можно запретить индексирование страниц, содержащих конфиденциальные данные. Регистр имени файла и содержимого файла имеет значение.
Поисковый робот – это программа поисковой системы, которая осуществляет индексирование веб-ресурсов. У одной поисковой системы может быть несколько поисковых роботов, каждый из которых имеет свое предназначение. Для управления поведением поискового робота через
robots.txt
можно указывать его уникальный идентификатор – User-аgent
. Пример №1
Пример №2
# Запрет индексирования всех страниц веб-ресурса для поискового робота YandexBot,
# кроме страниц начинающихся с '/cgi-bin'
User-agent: YandexBot
Allow: /cgi-bin
Disallow: /
# Запрет индексирования всех страниц веб-ресурса для всех поисковых роботов
User-agent: *
Disallow: /
При поступлении запроса на Платформу за файлом
robots.txt
с использованием вашего доменного имени, например, https://example.com/robots.txt
, ответ будет содержать файл robots.txt
, загруженный с сервера оригинации. Если запрос происходит с использованием доменного имени NGENIX, например,
https://12345.cdn.ngenix.net/robots.txt
, то Платформа предоставит собственный файл robots.txt
, который запрещает индексацию страниц веб-ресурса на сервисных доменах NGENIX популярным поисковым роботам: Google, Yandex, Bing, Yahoo и Baidu.User-agent: YandexBot
User-agent: Googlebot
User-agent: Bingbot
User-agent: Slurp
User-agent: Baiduspider
Disallow: /
- 1.Запретите индексирование разделов веб-ресурса, содержащих конфиденциальные данные, результаты поиска, статистику посещаемости, дубликаты страниц, лог-файлы, страницы базы данных и прочей информации, попадание которой в поисковые системы нежелательно.
- 2.Укажите главное доменное имя веб-ресурса с помощью редиректа с HTTP-кодом 301. В противном случае одинаковые данные, доступные по разными доменным именам, будут проиндексированы поисковым роботом многократно и создадут дополнительную нагрузку на сервер оригинации.
- 3.Убедитесь, что файл
robots.txt
настроен корректно. Если файл составлен с ошибками, то поисковый робот будет считать, что доступ ко всему содержимому веб-ресурса открыт.
Мы рекомендуем обратиться к документации поисковых роботов, которые представляют значение для вашего веб-ресурса.
Last modified 3yr ago