Файл robots.txt — это текстовый файл, который сообщает поисковым роботам (ботам), какие страницы сайта они могут, а какие не могут посещать и индексировать.

Основные причины использования файла robots.txt:

  • Закрыть для индексации конфиденциальные или служебные страницы, например панель администратора, корзину интернет-магазина и т.д. Это повышает безопасность сайта.
  • Оптимизировать работу поисковых роботов, указав какие страницы им нужно индексировать в первую очередь.
  • Уменьшить нагрузку на сервер, ограничив сканирование больших каталогов изображений, архивов и т.д.
  • Избежать дублирования контента, закрыв для индексации зеркальные или дублирующие страницы.
  • Предотвратить переиндексацию сайта после перезапуска или миграции на новый домен.

Таким образом грамотно настроенный robots.txt помогает оптимизировать работу поисковых роботов с сайтом и улучшить индексацию нужных страниц.

Вариант файла robots.txt с разрешениями для различных bot’ов и AI:

User-agent: * 
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://example.com/sitemap_index.xml

User-agent: Googlebot
Allow: /

User-agent: Bingbot 
Allow: /

User-agent: YandexBot
Allow: /

User-agent: DuckDuckBot
Allow: /

User-agent: Applebot
Allow: /

User-agent: Facebot
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Google Favicon
Allow: /

User-agent: Google-StructuredDataTestingTool
Allow: /

User-agent: Mediapartners-Google
Allow: /

User-agent: Twitterbot 
Allow: /

User-agent: ChatGPT
Allow: / 

User-agent: Anthropic
Allow: /

User-agent: Claude
Allow: /

User-agent: You
Allow: /

Пример настройки для robots.txt, чтобы уменьшить нагрузку на сервер

Основные моменты:

  • Закрыть папки кэша, бекапов, временные папки
  • Ограничить сканирование медиафайлов и больших каталогов
  • Запретить индексацию архивов, пагинации, фидов
  • Закрыть трекбеки

Это позволит сократить время индексации и снизить нагрузку на сервер. Но при этом важно не переборщить и не закрыть полезные страницы.

User-agent: *
Allow: /

Disallow: /wp-admin/
Disallow: /wp-includes/

Disallow: /tmp/
Disallow: /cache/
Disallow: /backups/

Disallow: /downloads/
Disallow: /images/uploads/
Disallow: /videos/
Disallow: /audio/

Disallow: /category/*archive*/
Disallow: /*?*page=*
Disallow: /*?*paged=*
Disallow: /author/*/feed

Disallow: /trackback/
Disallow: */trackback/
Disallow: */*/trackback/

Disallow: /feed
Disallow: /*/feed
Disallow: /*/*/feed

Disallow: /*?*attachment_id=*

Несколько советов по использованию файла robots.txt, чтобы предотвратить переиндексацию сайта после перезапуска или переезда на новый домен:

  1. На старом домене полностью закройте сайт от индексации:
User-agent: *
Disallow: /

Это не даст поисковым роботам проиндексировать устаревшие страницы.

  1. На новом домене также сначала полностью закройте сайт:
User-agent: * 
Disallow: /
  1. По мере готовности разделов, постепенно добавляйте правила разрешения в robots.txt.

Например:

Allow: /
Disallow: /category/
Disallow: /tag/
  1. Как только весь сайт будет готов, уберите ограничение Disallow: /, чтобы открыть полный доступ.
  2. Используйте параметр Crawl-delay в robots.txt, чтобы замедлить скорость индексации.
  3. Настройте переадресацию со старого домена на новый.
  4. Указывайте канонические теги на страницах нового сайта.
  5. Добавьте новый сайт в Search Console и запросите переиндексацию.

Это поможет избежать дублирования контента и провести переезд максимально плавно для поисковых роботов.

Специалист в области создания и продвижения сайтов в интернете, обладающий знаниями в веб-разработке и SEO.
Пишите: в Telegram