Noch im Herbst 2003 hatte ein Google-Mitarbeiter auf einer Konferenz in München klargestellt: "Wir sind ein Technologieunternehmen." Das sollte wohl so viel heißen wie: "Wir sind Google, wir lassen uns doch nicht dazu herab, von Hand nach Spam zu suchen!" Doch nur wenige Monate später wurde deutlich, dass Google auch manuell – also durch den Einsatz von Redakteuren einer sogenannten "Webspam Group" – Spamming im Webindex zu erkennen und auszusortieren versucht. Dies ist nötig, weil viele Spamming-Tricks so geschickt umgesetzt werden, dass sie maschinell kaum zu erfassen sind. Selbst wenn Sie also glauben, einen Trick zu kennen, der so gut ist, dass die Suchmaschinen ihn nicht erkennen können: Lassen Sie die Finger davon! Denn auch wenn die Filteralgorithmen Ihren Trick nicht auffliegen lassen, die Webspam Group täuschen Sie nicht so leicht.
Der Großteil der derartigen Probleme hat mit Inhaltsduplikaten ("Duplicate Content") zu tun. Das sind Texte, die in mehr oder weniger identischer Form unter mehreren verschiedenen URLs im Web zu finden sind. Dank Wikipedia oder dem Open Directory Project gibt es heute viele frei verfügbare Texte im Web. Das nutzen Spammer aus, um sehr einfach Webseiten mit viel Inhalt zu füllen und Werbung darauf zu platzieren. Diese Wikipedia-Kopien sind mit geringstem Aufwand automatisiert zu erstellen, und zu manchen Suchanfragen belegte der einschlägige Wikipedia-Artikel unter verschiedenen URLs die gesamte erste Ergebnisseite. Solche Trefferlisten sind für den Nutzer höchst unerfreulich, denn statt zehn verschiedener Treffer zeigt ihm die Suchmaschine nur ein Ergebnis an – das aber auf zehn verschiedenen Websites.
Um diese Art des Spammings zu eliminieren, versucht Google nun zu erkennen, ob der auf einer HTML-Seite veröffentlichte Inhalt auch unter einer anderen URL vorhanden ist. Falls dies der Fall sein sollte, nimmt Google nur die Seite mit dem höheren PageRank auf.
Doch dabei lässt es Google nicht bewenden. Stellt der Spam-Filter auf vielen Seiten einer Website Inhaltsduplikate fest, kann es passieren, dass die gesamte Site als Spam betrachtet, der PageRank auf null gesetzt und so weit abgewertet wird, dass Topplatzierungen nicht mehr möglich sind. Zu einer solchen Abwertung kann es im Übrigen auch kommen, wenn Sie sich keiner Duplikate bewusst sind.
Betrachten Sie dazu dieses fiktive Beispiel: Unter http://www.domain.de/thema/ liegt ein Artikel, von dem Sie glauben, er sei nur einmal vorhanden. Aber ist Ihre Website nicht auch unter http://domain.de zu erreichen? Und sicherlich bieten Sie für jede Seite eine Druckversion an? Und haben Sie nicht auch mal ausnahmsweise auf /thema/index.html verlinkt? Wie Sie unschwer erkennen können, haben Sie somit acht verschiedene URLs, die stets den gleichen Inhalt anzeigen:
http://www.domain.de/thema/
http://www.domain.de/thema/?format=druck
http://www.domain.de/thema/index.html
http://www.domain.de/thema/index.html?format=druck
http://domain.de/thema/
http://domain.de/thema/?format=druck
http://domain.de/thema/index.html
http://domain.de/thema/index.html?format=druck
Natürlich wird das Layout der Druckseite etwas anders aussehen, doch lässt sich Google nicht so leicht irreleiten. Kleinere Änderungen wie eine fehlende Navigationsleiste hindern Googles Spam-Filter nicht daran, die Seite doch als Duplikat zu entlarven.
Zwar versucht Google beständig, die fälschliche Erkennung von gespiegelten Seiten zu verhindern, damit Sie aber auf der sicheren Seite sind, sollten Sie Duplikate weitgehend vermeiden. Richten Sie dazu zunächst eine Weiterleitung von domain.de auf www.domain.de ein.
Dabei muss es sich um eine permanente Weiterleitung, signalisiert durch den Statuscode 301, handeln. Zudem sollte die Weiterleitung auch für alle Unterseiten gelten. Auch das lässt sich leicht mithilfe von mod_rewrite umsetzen. Druckseiten oder alle sonstigen URLs, die von Suchmaschinen nicht indexiert werden sollen, können Sie durch die Angabe von noindex im Robots-Meta-Tag von den Datenbanken der Suchmaschinen fernhalten:
<head>
......
Und wenn Sie nun noch konsequent bei der Verlinkung darauf achten, immer auf /thema/ zu linken und nie auf /thema/index.html, sollte der Duplikatsfilter an Ihrer Site nichts auszusetzen haben.
Wenn Sie Ihre Website nicht von Grund auf selbst programmiert haben, sondern auf ein fertiges System zurückgreifen, hängen Sie natürlich davon ab, was Ihnen dieses System an Einstellungsmöglichkeiten bietet.
So ist etwas das populäre Blog-System Wordpress bekannt dafür, in der Grundeinstellung einen Artikel unter Dutzenden verschiedener URLs anzuzeigen. Wie Sie Wordpress so konfigurieren, dass diese Probleme erst gar nicht auftauchen, zeigt Ihnen der Optimierer mit dem Künstlernamen "mediadonis" auf seiner Seite
http://www.mediadonis.net/?p=169. Dort lernen Sie im Übrigen nicht nur, wie Sie Duplicate Content in Wordpress verhindern, sondern noch gleich einige weitere spannende Tricks.
Lesen Sie auf der nächsten Seite:
Lesen Sie in diesem Beitrag
23.02.11
Ab Seite 13 von 18 in dem Artikel "So findet Sie jeder bei Google" geht es nicht mehr weiter, d.h. Seite ist nicht auf Server vorhanden.
Antwort schreiben
23.02.11
Antwort schreiben
23.02.11
Wenn man die Seite ausläßt und zur folgenden manöveriert, gehts dann wieder weiter.
Antwort schreiben