Файл robots.txt — это текстовый файл, который сообщает поисковым роботам (ботам), какие страницы сайта они могут, а какие не могут посещать и индексировать.
Основные причины использования файла robots.txt:
- Закрыть для индексации конфиденциальные или служебные страницы, например панель администратора, корзину интернет-магазина и т.д. Это повышает безопасность сайта.
- Оптимизировать работу поисковых роботов, указав какие страницы им нужно индексировать в первую очередь.
- Уменьшить нагрузку на сервер, ограничив сканирование больших каталогов изображений, архивов и т.д.
- Избежать дублирования контента, закрыв для индексации зеркальные или дублирующие страницы.
- Предотвратить переиндексацию сайта после перезапуска или миграции на новый домен.
Таким образом грамотно настроенный robots.txt помогает оптимизировать работу поисковых роботов с сайтом и улучшить индексацию нужных страниц.
Вариант файла robots.txt с разрешениями для различных bot’ов и AI:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap_index.xml
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
User-agent: YandexBot
Allow: /
User-agent: DuckDuckBot
Allow: /
User-agent: Applebot
Allow: /
User-agent: Facebot
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Google Favicon
Allow: /
User-agent: Google-StructuredDataTestingTool
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Twitterbot
Allow: /
User-agent: ChatGPT
Allow: /
User-agent: Anthropic
Allow: /
User-agent: Claude
Allow: /
User-agent: You
Allow: /
Пример настройки для robots.txt, чтобы уменьшить нагрузку на сервер
Основные моменты:
- Закрыть папки кэша, бекапов, временные папки
- Ограничить сканирование медиафайлов и больших каталогов
- Запретить индексацию архивов, пагинации, фидов
- Закрыть трекбеки
Это позволит сократить время индексации и снизить нагрузку на сервер. Но при этом важно не переборщить и не закрыть полезные страницы.
User-agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /tmp/
Disallow: /cache/
Disallow: /backups/
Disallow: /downloads/
Disallow: /images/uploads/
Disallow: /videos/
Disallow: /audio/
Disallow: /category/*archive*/
Disallow: /*?*page=*
Disallow: /*?*paged=*
Disallow: /author/*/feed
Disallow: /trackback/
Disallow: */trackback/
Disallow: */*/trackback/
Disallow: /feed
Disallow: /*/feed
Disallow: /*/*/feed
Disallow: /*?*attachment_id=*
Несколько советов по использованию файла robots.txt, чтобы предотвратить переиндексацию сайта после перезапуска или переезда на новый домен:
- На старом домене полностью закройте сайт от индексации:
User-agent: *
Disallow: /
Это не даст поисковым роботам проиндексировать устаревшие страницы.
- На новом домене также сначала полностью закройте сайт:
User-agent: *
Disallow: /
- По мере готовности разделов, постепенно добавляйте правила разрешения в robots.txt.
Например:
Allow: /
Disallow: /category/
Disallow: /tag/
- Как только весь сайт будет готов, уберите ограничение Disallow: /, чтобы открыть полный доступ.
- Используйте параметр Crawl-delay в robots.txt, чтобы замедлить скорость индексации.
- Настройте переадресацию со старого домена на новый.
- Указывайте канонические теги на страницах нового сайта.
- Добавьте новый сайт в Search Console и запросите переиндексацию.
Это поможет избежать дублирования контента и провести переезд максимально плавно для поисковых роботов.