Entwickler-Tools
robots.txt Validator
Füge den Inhalt deiner robots.txt ein, um die Syntax zu prüfen. Analysiert User-agent-, Disallow-, Allow- und Sitemap-Direktiven und visualisiert die Crawler-Zugriffsregeln.
[[ labels.or_paste ]]
[[ labels.result_label ]]
- [[ labels.line_label ]] [[ err.line ]]: [[ errorMessage(err) ]]
[[ labels.blocks_label ]]
| Disallow | / [[ labels.disallow_empty ]] [[ path ]] |
| Allow | [[ path ]] |
| [[ labels.no_rules ]] | |
| Crawl-delay | [[ block.crawlDelay ]] |
[[ labels.sitemaps_label ]]
Tipps
- User-agent: * gilt für alle Crawler. Blöcke mit einem spezifischen Bot-Namen (z. B. Googlebot) haben Vorrang vor dem Platzhalterblock.
- Disallow: ohne Wert bedeutet „alle Pfade erlauben".
Disallow: /(nur Schrägstrich) sperrt alles. Verwechsle sie nicht. - Die Allow:-Direktive hat Vorrang vor
Disallow:, wenn beide übereinstimmen. Beispiel:Disallow: /private/gefolgt vonAllow: /private/public.htmlerlaubt genau diese Datei. - Crawl-delay: ist eine nicht standardisierte Direktive, die das Intervall zwischen Anfragen in Sekunden angibt. Bing und Yandex unterstützen sie; Google ignoriert sie.
- Die Sitemap:-Direktive teilt Suchmaschinen die URL deiner Sitemap mit. Google und Bing erkennen sie; kombiniere sie mit der manuellen Einreichung in der Search Console.
Häufige Fragen
Disallow verhindert, dass Crawler deren Inhalt lesen, sodass sie nicht indexiert wird. Wenn die Seite jedoch von anderen Sites verlinkt ist, können Suchmaschinen sie als „bekannt, aber nicht gecrawlt" auflisten. Für vollständigen Ausschluss kombiniere es mit dem Meta-Tag noindex.example.com/robots.txt gilt nicht für blog.example.com. Jede Subdomain benötigt eine eigene robots.txt-Datei.* (beliebige Zeichenfolge) und $ (URL-Ende). Beispiel: Disallow: /private/*.pdf$ sperrt alle PDF-Dateien unter /private/. Nicht alle Crawler unterstützen Platzhalter.Übrigens – Die Entstehung von robots.txt: der Tag, an dem das Internet Manieren lernte
1994 erfand der niederländische Ingenieur Martijn Koster das Robots Exclusion Protocol (REP). Damals durchstreiften Webcrawler Seiten unkontrolliert und überlasteten Server. Kosters Idee war einfach: „Wenn du eine Datei mit Regeln im Stammverzeichnis der Website ablegst, werden Crawler sie lesen." Diese Datei wurde zu robots.txt.
Entscheidend ist: robots.txt ist eine freiwillige Übereinkunft ohne Durchsetzungskraft. Wohlmeinende Crawler wie Googlebot und Bingbot respektieren sie, aber bösartige Bots ignorieren sie. Deshalb eignet sich robots.txt gut, um Suchmaschinen mitzuteilen, was nicht indexiert werden soll, sollte aber niemals zum Schutz sensibler Inhalte vor unbefugtem Zugriff verwendet werden.
Das Robots Exclusion Protocol existierte fast drei Jahrzehnte als informelle Konvention, bevor es im September 2022 von der IETF als RFC 9309 formal registriert wurde – fast 28 Jahre nach seiner Entstehung.