robots.txt richtig verstehen und verwenden

Ich hatte zumindest auf Grund eines Verständnisproblems der Funktionsweise der Datei ‚robots.txt‘ schon Zweifel an mir oder am Googlebot gehabt. Denn eigentlich, da war ich mir sicher, respektiert der Googlebot, wie auch alle anderen seriösen Suchmaschinenroboter und sonstige Webcrawler, die Einträge in dieser Roboter-Steuerdatei.
Doch vor einiger Zeit war mir aufgefallen, das eine Seite, die ich explizit für alle Spider ausgeschlossen hatte, vom Googlebot eingelesen wurde und dann sogar in den Suchergebnislisten auftauchte. Zumindest dachte ich, das ich sie damit für alle Robots verboten hätte:

User-agent: *
Disallow: /geheim

Das ging auch alles gut, bis ich auf die Idee kam, dem Googlebot zu verbieten, meine feeds mit in den Index aufzunehmen. Kein Problem, zwei Zeilen in der ‚robots.txt‘ hinzugefügt, die dann so aussah:

User-agent: *
Disallow: /geheim

User-agent: Googlebot
Disallow: */feed/

Das mit den Feeds klappte auch gut, aber plötzlich wurde meine /geheim-Seite vom Googlebot gelesen und erschien einige Tage später sogar auf den Ergebnisseiten. Naja, dachte ich, der Googlebot ist ja auch nur (k)ein Mensch, der macht ja vielleicht auch mal Fehler. Bis ich dann der Sache vor ein paar Tagen nachgegangen bin.

Wo lag nun mein Denkfehler? Ich hatte angenommen, das der Eintrag mit ‚User-agent: *‘ für alle Spider gilt, und die jeweils explizit angegebenen ‚User-agent: Irgendwas‘ eben zusätzlich für diesen. Das ist aber mitnichten so.
Vielmehr gelten die Einträge mit ‚User-agent: *‘ nur für die Bots, die keinen explizit Eintrag haben. Alle namentlich genannten Bots interessieren sich nur für die unter ihrem Namen stehenden Anweisungen.
Richtig muß meine ‚robots.txt‘ also so aussehen:

User-agent: *
Disallow: /geheim

User-agent: Googlebot
Disallow: */feed/
Disallow: /geheim

Nun klappts auch wieder mit dem Googlebot.

Weitere Artikel mit Bezug zu diesem:

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

 Hier kein Häkchen setzen
 Ich bin kein Spambot

Hinweis: Kommentare von bisher unbekannten Schreibern (Name und eMail) oder mit mehr als einem Link werden moderiert.