Outils Développeur

Validateur robots.txt

Collez le contenu de votre robots.txt pour vérifier sa syntaxe. Analyse les directives User-agent, Disallow, Allow et Sitemap, et visualise les règles d'accès pour les robots d'exploration.

[[ labels.url_label ]]

[[ fetchError ]]

[[ labels.or_paste ]]

[[ labels.input_label ]]

[[ labels.sample_label ]]:

[[ labels.no_input ]]

[[ labels.result_label ]]

[[ labels.errors_label ]]

[[ labels.line_label ]] [[ err.line ]]: [[ errorMessage(err) ]]

✓ [[ labels.no_errors ]]

[[ labels.blocks_label ]]

User-agent: [[ ua === '*' ? labels.all_crawlers + ' (*)' : ua ]]

Disallow
Allow	[[ path ]]
[[ labels.no_rules ]]
Crawl-delay	[[ block.crawlDelay ]]

[[ labels.sitemaps_label ]]

[[ url ]]

Conseils

User-agent: * s'applique à tous les robots d'exploration. Les blocs avec un nom de bot spécifique (ex. : Googlebot) ont la priorité sur le bloc générique.
Disallow: sans valeur signifie « autoriser tous les chemins ». Disallow: / (slash seul) bloque tout. Ne les confondez pas.
La directive Allow: a la priorité sur Disallow: lorsque les deux correspondent. Par exemple, Disallow: /private/ suivi de Allow: /private/public.html autorise ce fichier précis.
Crawl-delay: est une directive non standard spécifiant l'intervalle entre les requêtes en secondes. Bing et Yandex la respectent, mais Google ne la prend pas en charge.
La directive Sitemap: informe les moteurs de recherche de l'URL de votre plan de site. Google et Bing la reconnaissent ; combinez-la avec la soumission manuelle dans la Search Console.

Questions fréquentes

Oui. Bloquer une page avec Disallow empêche les robots de lire son contenu, elle ne sera donc pas indexée. Cependant, si la page est liée depuis d'autres sites, les moteurs de recherche peuvent la lister comme « connue mais non explorée ». Pour une exclusion complète, combinez avec la balise meta noindex.

Non. robots.txt a une portée par origine. example.com/robots.txt ne s'applique pas à blog.example.com. Chaque sous-domaine a besoin de son propre fichier robots.txt.

Googlebot prend en charge * (toute séquence de caractères) et $ (fin d'URL). Par exemple, Disallow: /private/*.pdf$ bloque tous les fichiers PDF sous /private/. Tous les robots ne prennent pas en charge les caractères génériques.

Anecdote — La naissance de robots.txt : le jour où internet apprit la politesse

En 1994, l'ingénieur néerlandais Martijn Koster inventa le Protocole d'exclusion des robots (REP). À l'époque, les robots d'exploration parcouraient les sites sans contrôle, surchargeant les serveurs. L'idée de Koster était simple : « Si vous placez un fichier avec des règles à la racine du site, les robots le liront. » Ce fichier est devenu robots.txt.

L'essentiel est que robots.txt est un accord volontaire entre gentlemen, sans force exécutoire. Les robots bien intentionnés comme Googlebot et Bingbot le respectent, mais les bots malveillants l'ignorent. robots.txt fonctionne bien pour indiquer aux moteurs de recherche ce qu'il ne faut pas indexer, mais ne doit jamais être utilisé pour protéger du contenu sensible contre un accès non autorisé.

Le Protocole d'exclusion des robots a existé en tant que convention informelle pendant près de trois décennies avant d'être formellement enregistré par l'IETF sous la référence RFC 9309 en septembre 2022, près de 28 ans après sa création.