Ferramentas de Desenvolvimento

Validador de robots.txt

Cole o conteúdo do seu robots.txt para verificar a sintaxe. Analisa as diretivas User-agent, Disallow, Allow e Sitemap e visualiza as regras de acesso para rastreadores.

[[ labels.url_label ]]

[[ fetchError ]]

[[ labels.or_paste ]]

[[ labels.input_label ]]

[[ labels.sample_label ]]:

[[ labels.no_input ]]

[[ labels.result_label ]]

[[ labels.errors_label ]]

[[ labels.line_label ]] [[ err.line ]]: [[ errorMessage(err) ]]

✓ [[ labels.no_errors ]]

[[ labels.blocks_label ]]

User-agent: [[ ua === '*' ? labels.all_crawlers + ' (*)' : ua ]]

Disallow
Allow	[[ path ]]
[[ labels.no_rules ]]
Crawl-delay	[[ block.crawlDelay ]]

[[ labels.sitemaps_label ]]

[[ url ]]

Tips

User-agent: * se aplica a todos os rastreadores. Blocos com um nome de bot específico (ex.: Googlebot) têm prioridade sobre o bloco curinga.
Disallow: com valor vazio significa "permitir todos os caminhos". Disallow: / (apenas barra) bloqueia tudo. Não os confunda.
A diretiva Allow: tem prioridade sobre Disallow: quando ambas coincidem. Por exemplo, Disallow: /private/ seguido de Allow: /private/public.html permite aquele arquivo específico.
Crawl-delay: é uma diretiva não padronizada que especifica o intervalo entre requisições em segundos. Bing e Yandex a respeitam, mas o Google não a suporta.
A diretiva Sitemap: informa aos mecanismos de busca a URL do seu mapa do site. Google e Bing a reconhecem; combine-a com o envio manual no Search Console.

Perguntas frequentes

Sim. Bloquear uma página com Disallow impede que rastreadores leiam seu conteúdo, então ela não será indexada. No entanto, se a página tiver links externos, os mecanismos de busca podem listá-la como "conhecida, mas não rastreada". Para exclusão completa, combine com a meta tag noindex.

Não. O robots.txt tem escopo por origem. example.com/robots.txt não se aplica a blog.example.com. Cada subdomínio precisa do seu próprio arquivo robots.txt.

O Googlebot suporta * (qualquer sequência de caracteres) e $ (fim da URL). Por exemplo, Disallow: /private/*.pdf$ bloqueia todos os arquivos PDF em /private/. Nem todos os rastreadores suportam curingas.

Curiosidade — O nascimento do robots.txt: o dia em que a internet aprendeu as boas maneiras

Em 1994, o engenheiro holandês Martijn Koster inventou o Protocolo de Exclusão de Robôs (REP). Na época, os rastreadores web percorriam sites sem controle, sobrecarregando servidores. A ideia de Koster foi simples: "Se você colocar um arquivo com regras na raiz do site, os rastreadores o lerão." Esse arquivo tornou-se o robots.txt.

O ponto crucial é que robots.txt é um acordo voluntário de cavalheiros, sem poder coercitivo. Rastreadores bem-intencionados como Googlebot e Bingbot o respeitam, mas bots maliciosos o ignoram. Por isso, robots.txt funciona para indicar aos mecanismos de busca o que não indexar, mas nunca deve ser usado para proteger conteúdo sensível do acesso não autorizado.

O Protocolo de Exclusão de Robôs existiu como convenção informal por quase três décadas até ser formalmente registrado pela IETF como RFC 9309 em setembro de 2022, quase 28 anos após sua criação.