Robots.txt

Inhaltsverzeichnis

Allgemein

Die robots.txt hat sich über die Jahre im World-Wide-Web etabliert und gibt den Webcrawlern (Programm um Webseiten zu besuchen und ggf. zu indexieren) Auskunft darüber, welcher Webcrawler welche Unterseiten der Webseite indexieren darf.
Die robots.txt ist sehr einfach aufgebaut und jede Zeile besteht aus 2 Feldern die durch einen Doppelpunkt getrennt werden. Um die Regeln zu beschreiben, wird eine Anweisung und eine zugehörige Funktion definiert.

Schlüsselwörter für die Anweisungen sind z.B.:

User-agent:
Disallow:
Allow:
Sitemap:

Beispiele

Im folgenden Abschnitt sind einige Regeln definiert, wie sie in einer robots.txt vorkommen könnten:


# robots.txt für example.com
# Diese Webcrawler schließe ich aus
User-agent: Sidewinder
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /

# Diese Verzeichnisse/Dateien sollen nicht durchsucht werden
User-agent: *
Disallow: /default.html
Disallow: /Temp/ # diese Inhalte verschwinden bald
Disallow: /Privat/Familie/Geburtstage.html

# Nicht geheim, sollen aber nicht in Suchmaschinen gelistet werden.

 
Weitere Informationen findest du hier