Ferramentas de Desenvolvimento
Validador de robots.txt
Cole o conteúdo do seu robots.txt para verificar a sintaxe. Analisa as diretivas User-agent, Disallow, Allow e Sitemap e visualiza as regras de acesso para rastreadores.
[[ labels.or_paste ]]
[[ labels.result_label ]]
- [[ labels.line_label ]] [[ err.line ]]: [[ errorMessage(err) ]]
[[ labels.blocks_label ]]
| Disallow | / [[ labels.disallow_empty ]] [[ path ]] |
| Allow | [[ path ]] |
| [[ labels.no_rules ]] | |
| Crawl-delay | [[ block.crawlDelay ]] |
[[ labels.sitemaps_label ]]
Tips
- User-agent: * se aplica a todos os rastreadores. Blocos com um nome de bot específico (ex.: Googlebot) têm prioridade sobre o bloco curinga.
- Disallow: com valor vazio significa "permitir todos os caminhos".
Disallow: /(apenas barra) bloqueia tudo. Não os confunda. - A diretiva Allow: tem prioridade sobre
Disallow:quando ambas coincidem. Por exemplo,Disallow: /private/seguido deAllow: /private/public.htmlpermite aquele arquivo específico. - Crawl-delay: é uma diretiva não padronizada que especifica o intervalo entre requisições em segundos. Bing e Yandex a respeitam, mas o Google não a suporta.
- A diretiva Sitemap: informa aos mecanismos de busca a URL do seu mapa do site. Google e Bing a reconhecem; combine-a com o envio manual no Search Console.
Perguntas frequentes
Disallow impede que rastreadores leiam seu conteúdo, então ela não será indexada. No entanto, se a página tiver links externos, os mecanismos de busca podem listá-la como "conhecida, mas não rastreada". Para exclusão completa, combine com a meta tag noindex.example.com/robots.txt não se aplica a blog.example.com. Cada subdomínio precisa do seu próprio arquivo robots.txt.* (qualquer sequência de caracteres) e $ (fim da URL). Por exemplo, Disallow: /private/*.pdf$ bloqueia todos os arquivos PDF em /private/. Nem todos os rastreadores suportam curingas.Curiosidade — O nascimento do robots.txt: o dia em que a internet aprendeu as boas maneiras
Em 1994, o engenheiro holandês Martijn Koster inventou o Protocolo de Exclusão de Robôs (REP). Na época, os rastreadores web percorriam sites sem controle, sobrecarregando servidores. A ideia de Koster foi simples: "Se você colocar um arquivo com regras na raiz do site, os rastreadores o lerão." Esse arquivo tornou-se o robots.txt.
O ponto crucial é que robots.txt é um acordo voluntário de cavalheiros, sem poder coercitivo. Rastreadores bem-intencionados como Googlebot e Bingbot o respeitam, mas bots maliciosos o ignoram. Por isso, robots.txt funciona para indicar aos mecanismos de busca o que não indexar, mas nunca deve ser usado para proteger conteúdo sensível do acesso não autorizado.
O Protocolo de Exclusão de Robôs existiu como convenção informal por quase três décadas até ser formalmente registrado pela IETF como RFC 9309 em setembro de 2022, quase 28 anos após sua criação.