robots.txt

robots.txt

Definition

Die robots.txt ist eine einfache Textdatei, die im Wurzelverzeichnis einer Website liegt und Suchmaschinen-Crawlern mitteilt, welche Bereiche einer Domain sie crawlen dürfen und welche nicht. Sie folgt dem Robots Exclusion Protocol und wird von Googlebot, Bingbot und anderen Crawlern als erstes abgerufen, bevor diese eine Website indexieren. Die Datei steuert damit den Zugang auf Verzeichnisebene — nicht die Sichtbarkeit einzelner Seiten in den Suchergebnissen.

Warum robots.txt wichtig ist

Das Crawl-Budget ist bei großen Websites eine begrenzte Ressource: Google investiert nur eine bestimmte Menge an Crawling-Kapazität pro Domain. Wenn Crawler unnötig Zeit in Staging-Umgebungen, interne Suchergebnisseiten, Filterparameter oder Admin-Bereiche verschwenden, fehlt diese Kapazität für die Seiten, die tatsächlich ranken sollen. Eine sauber konfigurierte robots.txt lenkt den Crawler gezielt auf relevante Inhalte — und hält ihn gleichzeitig von sensiblen oder technisch überflüssigen Bereichen fern. Falsch konfiguriert kann sie jedoch das Gegenteil bewirken: Wer versehentlich wichtige Verzeichnisse oder CSS- und JavaScript-Dateien blockiert, riskiert, dass Google Seiten nicht korrekt rendern und bewerten kann.

Beispiel

Ein Online-Shop betreibt eine interne Suche, die Hunderte von URL-Varianten erzeugt — etwa /suche?q=rote+schuhe&farbe=rot&groesse=42. Diese URLs haben keinen eigenständigen SEO-Wert, blähen aber den Index auf und verbrauchen Crawl-Budget. In der robots.txt wird deshalb das Verzeichnis /suche/ mit einer Disallow-Direktive gesperrt:

User-agent: *
Disallow: /suche/

Gleichzeitig bleibt /produkte/ vollständig freigegeben, damit Googlebot alle Produktseiten regulär crawlen und indexieren kann. Das Ergebnis: Der Crawler konzentriert sich auf die umsatzrelevanten Seiten, statt sich in parameterbasierten URLs zu verlieren.

Verwandte Begriffe