211416

Manuelle Spam-Bekämpfung bei Suchmaschinen

Noch im Herbst 2003 hatte ein Google-Mitarbeiter auf einer Konferenz in München klargestellt: "Wir sind ein Technologieunternehmen." Das sollte wohl so viel heißen wie: "Wir sind Google, wir lassen uns doch nicht dazu herab, von Hand nach Spam zu suchen!" Doch nur wenige Monate später wurde deutlich, dass Google auch manuell – also durch den Einsatz von Redakteuren einer sogenannten "Webspam Group" – Spamming im Webindex zu erkennen und auszusortieren versucht. Dies ist nötig, weil viele Spamming-Tricks so geschickt umgesetzt werden, dass sie maschinell kaum zu erfassen sind. Selbst wenn Sie also glauben, einen Trick zu kennen, der so gut ist, dass die Suchmaschinen ihn nicht erkennen können: Lassen Sie die Finger davon! Denn auch wenn die Filteralgorithmen Ihren Trick nicht auffliegen lassen, die Webspam Group täuschen Sie nicht so leicht.

Der Großteil der derartigen Probleme hat mit Inhaltsduplikaten ("Duplicate Content") zu tun. Das sind Texte, die in mehr oder weniger identischer Form unter mehreren verschiedenen URLs im Web zu finden sind. Dank Wikipedia oder dem Open Directory Project gibt es heute viele frei verfügbare Texte im Web. Das nutzen Spammer aus, um sehr einfach Webseiten mit viel Inhalt zu füllen und Werbung darauf zu platzieren. Diese Wikipedia-Kopien sind mit geringstem Aufwand automatisiert zu erstellen, und zu manchen Suchanfragen belegte der einschlägige Wikipedia-Artikel unter verschiedenen URLs die gesamte erste Ergebnisseite. Solche Trefferlisten sind für den Nutzer höchst unerfreulich, denn statt zehn verschiedener Treffer zeigt ihm die Suchmaschine nur ein Ergebnis an – das aber auf zehn verschiedenen Websites.

Um diese Art des Spammings zu eliminieren, versucht Google nun zu erkennen, ob der auf einer HTML-Seite veröffentlichte Inhalt auch unter einer anderen URL vorhanden ist. Falls dies der Fall sein sollte, nimmt Google nur die Seite mit dem höheren PageRank auf.

Doch dabei lässt es Google nicht bewenden. Stellt der Spam-Filter auf vielen Seiten einer Website Inhaltsduplikate fest, kann es passieren, dass die gesamte Site als Spam betrachtet, der PageRank auf null gesetzt und so weit abgewertet wird, dass Topplatzierungen nicht mehr möglich sind. Zu einer solchen Abwertung kann es im Übrigen auch kommen, wenn Sie sich keiner Duplikate bewusst sind.

Betrachten Sie dazu dieses fiktive Beispiel: Unter http://www.domain.de/thema/ liegt ein Artikel, von dem Sie glauben, er sei nur einmal vorhanden. Aber ist Ihre Website nicht auch unter http://domain.de zu erreichen? Und sicherlich bieten Sie für jede Seite eine Druckversion an? Und haben Sie nicht auch mal ausnahmsweise auf /thema/index.html verlinkt? Wie Sie unschwer erkennen können, haben Sie somit acht verschiedene URLs, die stets den gleichen Inhalt anzeigen:

http://www.domain.de/thema/
http://www.domain.de/thema/?format=druck
http://www.domain.de/thema/index.html
http://www.domain.de/thema/index.html?format=druck
http://domain.de/thema/
http://domain.de/thema/?format=druck
http://domain.de/thema/index.html
http://domain.de/thema/index.html?format=druck

Natürlich wird das Layout der Druckseite etwas anders aussehen, doch lässt sich Google nicht so leicht irreleiten. Kleinere Änderungen wie eine fehlende Navigationsleiste hindern Googles Spam-Filter nicht daran, die Seite doch als Duplikat zu entlarven.

Zwar versucht Google beständig, die fälschliche Erkennung von gespiegelten Seiten zu verhindern, damit Sie aber auf der sicheren Seite sind, sollten Sie Duplikate weitgehend vermeiden. Richten Sie dazu zunächst eine Weiterleitung von domain.de auf www.domain.de ein.

Dabei muss es sich um eine permanente Weiterleitung, signalisiert durch den Statuscode 301, handeln. Zudem sollte die Weiterleitung auch für alle Unterseiten gelten. Auch das lässt sich leicht mithilfe von mod_rewrite umsetzen. Druckseiten oder alle sonstigen URLs, die von Suchmaschinen nicht indexiert werden sollen, können Sie durch die Angabe von noindex im Robots-Meta-Tag von den Datenbanken der Suchmaschinen fernhalten:

<head>

PC-WELT Marktplatz

211416