211416

Die Geheimnisse der robots.txt-Datei

Nicht immer sollen alle Bereiche einer Website von Suchmaschinen durchsucht werden können. Scripte oder noch nicht fertig gestellte HTML-Seiten etwa sind in der Datenbank einer Suchmaschine womöglich nicht sehr hilfreich.

Der Robots Exclusion Standard
Um Robots von unerwünschten Bereichen einer Site fernzuhalten, wurde der Robots Exclusion Standard vereinbart, an den sich die meisten Robots auch halten. Im Übrigen wird er auch von vielen der selbst erstellten Robots beachtet, da die Perl-Libraries, mit denen Robots sehr einfach zu schreiben sind, diesen Standard von Haus aus berücksichtigen.

Entsprechend dem Robots Exclusion Standard liest ein Robot als Erstes eine Datei robots.txt im Root-Verzeichnis Ihres Webservers: http://www.ihredomain.de/robots.txt.

Diese Datei ist eine einfache Textdatei, die zeilenweise aufgebaut ist. Hier sehen Sie ein Beispiel:
Listing 18.1: Beispiel für eine robots.txt_Datei

# /robots.txt file for http://webcrawler.com/
User-agent: webcrawler
Disallow:
User-agent: lycra
User-agent: omega
Disallow: /
User-agent: *
Disallow: /tmp
Disallow: /logs

Die Zeilen mit einem # am Beginn stellen Kommentare dar. Mit User-agent sprechen Sie bestimmte Robots mit ihrer Bezeichnung an. Es reicht dabei aus, einen Teilstring des tatsächlichen User-Agent des Robots anzugeben; Groß /Kleinschreibung wird nicht berücksichtigt. Es können ein oder mehrere User-agent-Einträge untereinander stehen.

Mit dem folgenden Disallow wird dem Robot mitgeteilt, welche Bereiche tabu sind. Dabei werden alle URLs auf diesem Server ausgeschlossen, die mit dem hinter Disallow angegebenen Zeichen beginnen. Im obigen Beispiel ist für den Robot webcrawler nichts verboten, also kann er die ganze Site indizieren. Für die Robots lycra und omega hingegen sind alle Bereiche gesperrt, die mit "/" beginnen – also die komplette Site.

Der User Agent * schließlich spricht alle bisher noch nicht genannten Robots an und verbietet diesen die Ordner /tmp und /logs mit allen Unterordnern. Eine Notierung der Art /tmp/* ist nicht zulässig.

Wollen Sie allen Robots den Zugang zu Ihrer kompletten Site gewähren, so benötigen Sie keine robots.txt-Datei. Allerdings führt dies bei jedem Robot-Besuch zu einem 404-Fehler in Ihren Logfiles. Wenn Sie das stört, stellen Sie einfach eine leere robots.txt-Datei auf Ihren Webserver. Eine Liste aller im Web bisher gesichteten Robots sowie weitere Details zum Robots Exclusion Protocol finden Sie auf der Website http://www.robotstxt.org/.

Unfreiwilliger Spam
Nach wie vor ist Spamming das zentrale Problem der Suchmaschinenbetreiber und deshalb versuchen sie sich dagegen nach Kräften zu wehren. Während Google dem Treiben zunächst überraschend lange zusah, setzt der Branchenführer seit etwa Anfang 2004 verschiedene Filter zur automatisierten Spam-Erkennung ein. Auch wenn Sie jetzt denken: "Was interessiert mich das, ich spamme ja nicht!", lesen Sie trotzdem weiter. Denn leider haben einige der Spam-Filter die Eigenschaft, dass sie auch an sich unbescholtene Seiten als vermeintlichen Spam erkennen und abstrafen. Das kann sogar dazu führen, dass Ihre Seiten komplett aus dem Google-Index verschwinden.

PC-WELT Marktplatz

211416