Поддержка robots.txt
Что такое robots.txt?
Поисковая система анализирует страницы веб-ресурсов и все ссылки на них, чтобы занести актуальную информацию в свою базу данных. Эта процедура называется индексированием веб-ресурса.
Для управление индексированием веб-ресурса используется файл robots.txt.
, который должен находиться в корне веб-ресурса. Например, https://example.com/robots.txt
В этом файле указывается набор директив, которые влияют на поведение поисковой системы. Например, можно запретить индексирование страниц, содержащих конфиденциальные данные.
Регистр имени файла и содержимого файла имеет значение.
Поисковый робот – это программа поисковой системы, которая осуществляет индексирование веб-ресурсов. У одной поисковой системы может быть несколько поисковых роботов, каждый из которых имеет свое предназначение. Для управления поведением поискового робота через robots.txt
можно указывать его уникальный идентификатор – User-аgent
.
Пример содержимого файла robots.txt
Политика NGENIX в отношении файла robots.txt
При поступлении запроса на Платформу за файлом robots.txt
с использованием вашего доменного имени, например, https://example.com/robots.txt
, ответ будет содержать файл robots.txt
, загруженный с сервера оригинации.
Если запрос происходит с использованием доменного имени NGENIX, например, https://12345.cdn.ngenix.net/robots.txt
, то Платформа предоставит собственный файл robots.txt
, который запрещает индексацию страниц веб-ресурса на сервисных доменах NGENIX популярным поисковым роботам: Google, Yandex, Bing, Yahoo и Baidu.
Содержимое файла robots.txt, предоставляемого Платформой
Рекомендации по составлению собственного файла robots.txt
Запретите индексирование разделов веб-ресурса, содержащих конфиденциальные данные, результаты поиска, статистику посещаемости, дубликаты страниц, лог-файлы, страницы базы данных и прочей информации, попадание которой в поисковые системы нежелательно.
Укажите главное доменное имя веб-ресурса с помощью редиректа с HTTP-кодом 301. В противном случае одинаковые данные, доступные по разными доменным именам, будут проиндексированы поисковым роботом многократно и создадут дополнительную нагрузку на сервер оригинации.
Убедитесь, что файл
robots.txt
настроен корректно. Если файл составлен с ошибками, то поисковый робот будет считать, что доступ ко всему содержимому веб-ресурса открыт.
Мы рекомендуем обратиться к документации поисковых роботов, которые представляют значение для вашего веб-ресурса.
Last updated