42140

Turbo 10: Blick in die Tiefen des Webs

Die Webspider von Volltextsuchmaschinen wie Google oder Alltheweb können nur einen Teil des Webs absuchen. Bei vielen Web-Seiten stehen Volltext-Webspider vor verschlossenen Türen und können die Seiteninhalte nicht richtig herunterladen – und infolgedessen auch nicht im Index speichern.

Der erste Grund: Webspider brauchen möglichst reinen HTML-Code. Nicht erfassen können sie beispielsweise vollständig grafisch erstellte Sites („Flash-Sites“), dynamische Sites, die auf speziellen Datenbanksystemen basieren, und Sites, die bei der Benutzernavigation vorwiegend auf Grafiken („Image Maps“) oder Scripts setzen.

Ein weiterer Grund liegt in der Verzeichnisstruktur mancher Websites. Die Spider der Suchmaschinen sind darauf ausgerichtet, Inhalte von Web-Seiten zu erfassen und über Links die folgenden Web-Seiten anzusteuern. Da sie kein Navigationssystem besitzen, können bei Web-Seiten mit tiefen Verzeichnisstrukturen Probleme auftreten.

Es kann sein, dass der Spider sich verläuft, nicht alle Seiten erfasst und nicht mehr zurück zur Startseite findet. Deshalb berücksichtigen Suchmaschinen meist maximal fünf oder sechs Verzeichnisebenen, viele Spider gehen sogar nur bis zur zweiten Verzeichnisebene. Die in den tieferen Ebenen liegenden Web-Seiten bleiben für Suchmaschinen daher in der Regel unsichtbar („Invisible Web“ oder „Deep Web“).

Die Suchmaschine Turbo 10 hat sich genau auf diesen Teil des Webs spezialisiert. Sie versucht, mittels spezieller, als „Trawler“ bezeichneter Algorithmen systematisch Internet-Datenbanken abzufragen und mit den Ergebnissen einer Meta-Suche bei anderen Suchdiensten zu verknüpfen. Damit sollen sich auch solche Inhalte per Suchmaschine recherchieren lassen, die robotbasierte Maschinen wie Google normalerweise nicht indizieren.

PC-WELT Marktplatz

0 Kommentare zu diesem Artikel
42140