Herramientas de Desarrollo

Validador de robots.txt

Pega el contenido de tu robots.txt para verificar su sintaxis. Analiza las directivas User-agent, Disallow, Allow y Sitemap, y visualiza las reglas de acceso para los rastreadores.


[[ fetchError ]]

[[ labels.or_paste ]]
[[ labels.sample_label ]]:
[[ labels.no_input ]]

[[ labels.result_label ]]

[[ labels.errors_label ]]
  • [[ labels.line_label ]] [[ err.line ]]: [[ errorMessage(err) ]]
✓ [[ labels.no_errors ]]

[[ labels.blocks_label ]]

User-agent: [[ ua === '*' ? labels.all_crawlers + ' (*)' : ua ]]
[[ labels.no_rules ]]
Crawl-delay [[ block.crawlDelay ]]

[[ labels.sitemaps_label ]]

Tips

  • User-agent: * se aplica a todos los rastreadores. Los bloques con un nombre de bot específico (p. ej., Googlebot) tienen prioridad sobre el bloque comodín.
  • Disallow: con valor vacío significa "permitir todas las rutas". Disallow: / (solo barra) bloquea todo. No los confundas.
  • La directiva Allow: tiene prioridad sobre Disallow: cuando ambas coinciden. Por ejemplo, Disallow: /private/ seguido de Allow: /private/public.html permite ese archivo.
  • Crawl-delay: es una directiva no estándar que especifica el intervalo entre solicitudes en segundos. Bing y Yandex la respetan, pero Google no la soporta.
  • La directiva Sitemap: indica a los motores de búsqueda la URL de tu mapa del sitio. Google y Bing la reconocen; combínala con el envío manual en Search Console.

Preguntas frecuentes

Sí. Bloquear una página con Disallow impide que los rastreadores lean su contenido, por lo que no será indexada. Sin embargo, si la página tiene enlaces externos, los motores de búsqueda pueden listarla como "conocida pero no rastreada". Para una exclusión completa, combínalo con la etiqueta meta noindex.

No. robots.txt tiene alcance por origen. example.com/robots.txt no se aplica a blog.example.com. Cada subdominio necesita su propio archivo robots.txt.

Googlebot admite * (cualquier secuencia de caracteres) y $ (fin de URL). Por ejemplo, Disallow: /private/*.pdf$ bloquea todos los PDF bajo /private/. No todos los rastreadores admiten comodines.

A propósito — El nacimiento de robots.txt: el día en que Internet aprendió a comportarse

En 1994, el ingeniero holandés Martijn Koster inventó el Protocolo de Exclusión de Robots (REP). En esa época, los rastreadores web recorrían los sitios sin control, generando una carga excesiva en los servidores. La idea de Koster fue sencilla: "Si colocas un archivo con reglas en la raíz del sitio, los rastreadores lo leerán." Ese archivo se convirtió en robots.txt.

Lo fundamental es que robots.txt es un acuerdo voluntario de caballeros sin poder coercitivo. Los rastreadores bien intencionados como Googlebot y Bingbot lo respetan, pero los bots maliciosos lo ignoran. Por eso, robots.txt sirve para indicar a los motores de búsqueda qué no indexar, pero nunca debe usarse para proteger contenido sensible del acceso no autorizado.

El Protocolo de Exclusión de Robots existió como convención informal durante casi tres décadas hasta que fue registrado formalmente por la IETF como RFC 9309 en septiembre de 2022, casi 28 años después de su creación.