1899149

So funktionieren Web-Suchmaschinen

09.06.2014 | 08:45 Uhr |

Fast jede Information und jede Webseite im Internet ist über eine Suchmaschine auffindbar. Doch wie geht das eigentlich und welche Algorithmen werden benutzt?

Ohne Suchmaschinen lassen sich die Datenmassen im Internet nicht erschließen. Jeder kennt zwar ein paar Adressen, über die er seine Lieblingsseiten aufruft. Wer jedoch an Infos zu beliebigen Themen herankommen will, benötigt eine Suchmaschine. Für optimale Suchabfragen und die bessere Interpretation der Ergebnisse ist die Kenntnis der Arbeitsweise von Suchmaschinen zwar nicht Voraussetzung, aber doch hilfreich. Wer selbst Webseiten veröffentlicht und gefunden werden will, sollte sich auf jeden Fall genauer mit Google beschäftigen.

Google & Co: Die Sammler im Internet

Schon relativ früh gab es Suchmaschinen für das Internet. Eine der ersten mit Volltextsuche war der Webcrawler im Jahr 1994. Kurz darauf folgten Lycos, Yahoo und Altavista. Google, heute mit etwa 90 Prozent Marktanteil in Deutschland der meistgenutzte Anbieter, kam erst 1998 dazu. Microsofts Bing blieb 2013 trotz der Verankerung im Internet Explorer und in Windows 8 mit drei Prozent Marktanteil nur eine Randerscheinung. Warum Google so erfolgreich ist, bleibt auch im Nachhinein unklar: Gute Suchergebnisse in Kombination mit einer schmucklosen, reduzierten Startseite haben sicher dazu beigetragen. „Googeln“ ist Synonym für Internetsuche, als ob es keine andere Suchmaschine mehr gäbe.

Damit Google den kostenlosen Suchdienst finanzieren kann, ist das Unternehmen auf Werbung angewiesen. Die erscheint, passend zum Suchbegriff und eindeutig gekennzeichnet, auf der Ergebnisseite. Außerdem kann sich jeder selbst Google-Werbung in die eigene Webseiten einbauen und dann bei jedem Klick darauf mitverdienen.

Die aktuellen Marktanteile: Suchmaschinen, Browser und OS

Wie das Internet durchsucht wird

Wenn eine Suchmaschine an den Start geht, benötigt sie zuerst eine Liste mit Webadressen. Eine Software mit der Bezeichnung Webcrawler, Spider oder Searchbot liest dann den Inhalt der jeweiligen Startseite ein und führt eine Analyse durch. Alle dabei gefundenen Links auf andere Websites erweitern die ursprüngliche verwendete Adressenliste. Die Links auf weitere Seiten innerhalb einer Domain führen den Webcrawler von Seite zu Seite. Was ohne Verlinkung auf dem Webserver liegt, kann nicht erfasst werden. Im optimalen Fall produziert der Webcrawler eine Liste, die Links auf alle Seiten enthält, die über das Internet abrufbar sind. In der Praxis geht der Crawler aber nicht beliebig lange und beliebig oft in die Tiefen jeder Website. Dadurch werden einige Seiten nicht erfasst oder aktualisierte Inhalte nicht berücksichtigt. Betreiber größerer Websites verwenden daher eine Sitemap-Datei, die alle URLs der Site sowie Infos zu den Aktualisierungsintervallen enthält. Es gibt für alle gängigen Content- Management-Systeme Erweiterungen, die das automatisch erledigen. Besitzer einer Website können sich auch jederzeit darüber informieren, welche Seiten erfasst wurden und ob es Probleme gab. Dazu ist eine kostenlose Anmeldung bei den Google Webmaster Tools oder Bing Webmaster Tools erforderlich.

Nachdem die Link-Liste erfasst ist, können die Seiteninhalte in den Suchindex aufgenommen werden. Unter Zuhilfenahme der Strukturierung durch Seitentitel, Überschriften und Bildnamen versucht der Indexer, die relevanten Inhalte herauszufinden. Das Ergebnis ist ein riesiger Katalog mit Stichwörtern und den Webseiten, auf denen sie vorkommen.

Welche Suchbegriffe gerade angesagt sind, zeigt www.google.com/trends nach einem klick auf „top charts“. Die Liste wertet bisher allerdings nur Daten aus den USA aus.
Vergrößern Welche Suchbegriffe gerade angesagt sind, zeigt www.google.com/trends nach einem klick auf „top charts“. Die Liste wertet bisher allerdings nur Daten aus den USA aus.

Wie sich Inhalte finden lassen

Im Suchindex stehen nicht alle Webseiten gleichberechtigt nebeneinander. Ob zu einem bestimmten Suchbegriff die eine oder die andere Webseite gefunden wird, hängt von einem komplexen Algorithmus ab. Da die Algorithmen von Google & Co. immer weiter verfeinert werden und sich folglich ändern, sind dogmatische Regeln problematisch, wie ein Webinhalt nachhaltig in vordere Ränge zu hieven sei. Sicher spielt es eine Rolle, wie aktuell eine Seite ist, wie oft ein Suchbegriff innerhalb eines Artikels auftaucht, ob er häufig auf anderen Seiten innerhalb der Domain und vielleicht auch im Seitentitel, dem Domain-Namen und der URL vorkommt. Schneller auf vordere Plätze kommen ferner große Sites mit guter Reputation. Dafür ist ausschlaggebend, wie oft Seiten von anderen Sites verlinkt wurden und ob Benutzer der Suchmaschine hier häufig das Gewünschte gefunden haben. Was zu einem bestimmten Suchbegriff angezeigt wird, hängt außerdem von den Spracheinstellungen des Browsers, dem Wohnort und dem bisherigen Suchverlauf ab. Die Suchanbieter liefern auch nicht ausschließlich Ergebnisse, die exakt zum Suchbegriff passen. Eine gewisse Eigenintelligenz sorgt dafür, dass auch falsch geschriebene Begriffe und Synonyme mit einer gewissen Wahrscheinlichkeit ans Ziel führen.

Google verzichtet auf www.google.de auf fast alle überflüssigen Elemente. Schon beim Eintippen des Suchbegriffs können Ergebnisse erscheinen, wenn Google das für sinnvoll hält. Erst danach gibt es weitere Menüpunkte, beispielsweise „Bilder“ oder „Maps“, über die sich die Suche auf diese Bereiche anwenden lässt. Mehrere Suchbegriffe sind standardmäßig als logisches „UND“ verknüpft. Es werden also Seiten gefunden, die alle Begriffe und nicht nur einen davon enthalten. Stehen die Suchbegriffe in Anführungszeichen, sucht Google nach dem Vorkommen genau dieser Wortgruppe. Wer komplexe Suchanfragen formulieren möchte, klickt auf das Zahnradsymbol und „Erweiterte Suche“. Dahinter verbirgt sich ein Formular, das die Suche auf einen bestimmten Zeitraum oder einen Dateityp eingrenzt.

So ermittelt man im Internet

Auch Bing ist tendenziell eher schlicht gehalten und rückt die Suchfunktion in den Vordergrund. Microsoft kann jedoch der Versuchung nicht widerstehen, dem Besucher gleich ein paar Suchvorschläge zu unterbreiten. Wer beispielsweise mehr über das gerade angezeigte Hintergrundbild erfahren möchte, findet in der Leiste am unteren Bildschirmrand einen Link mit einer der Frage wie „In welcher Stadt sind wir heute zu Besuch?“, der dann zu „Bing Karten“ führt. Die Standardsuche funktioniert genauso wie bei Google. Auf einer Ergebnisseite können Sie nach einem Klick in das Suchfeld die „Erweiterte Suche“ aufrufen und dann Einschränkungen auf eine bestimmte Domain oder Sprache festlegen.

Sowohl Google als auch Bing bieten ausführliche Suchabfragen direkt über das Suchfeld an. Eine Suche wie

"Windows 8" site:www.pcwelt.de  

liefert Links zu allen Seiten von www.pcwelt. de, auf denen „Windows 8“ vorkommt. Die Eingabe

Windows filetype:pdf  

zeigt im Ergebnis nur Links auf PDF-Dateien, die „Windows“ enthalten. Der Suchindex wird zwar automatisch erstellt, jedoch nicht völlig ohne Kontrolle. Funktionen in der Software sorgen dafür, dass Seiten mit Spam, automatisch generiertem Inhalt sowie gehackte Seiten aus dem Index verschwinden.

Es gibt aber nach Beschwerden auch manuelle Eingriffe. Das betrifft vor allem Sites, auf denen urheberrechtlich geschütztes Material angeboten und anderweitig gegen Gesetze verstoßen wird. Im Oktober 2013 wurde bei Google die Löschung von mehr als 26 Millionen URLs wegen Urheberrechtsverletzungen beantragt, dazu kommen noch einige Tausend Löschanträge staatlicher Stellen. Informationen über die Gründe von Löschaktionen finden Sie unter www.google.com/transparencyreport .

0 Kommentare zu diesem Artikel
1899149