Der Googlebot ist der hauseigene Crawler des Suchmaschinengiganten aus Kalifornien. In seiner grundlegenden Funktionsweise unterscheidet er sich kaum von anderen Bots (gelegentlich auch Spider oder Robots genannt). Er durchforstet (crawlt) das Internet nach neuen Seiten indem er Links folgt. Die so gefundenen Websites bzw. neuen Inhalte werden dem Google Index hinzugefügt.

 

Was macht den Googlebot so besonders?

Die besondere Bedeutung des Googlebots ergibt sich aus der Marktdominanz von Google. Wer will, dass seine Seite gefunden wird, orientiert sich folglich an der größten Suchmaschine im Netz. Und daran ist grundsätzlich nichts auszusetzen. Wer seine Seite optimal für einen Besuch des Google-Crawlers vorbereitet hat, braucht auch andere Bots von Yahoo oder Bing nicht fürchten.

Wie oft besucht der Googlebot eine Website?

Eine Fangfrage, denn tatsächlich kann man darüber keine genaue Vorhersage treffen. Der Intervall in dem Googles Crawler eine Website besucht, hängt von verschiedenen Faktoren ab, von denen nur gewisse auch durch den SEO-Experten optimierbar sind. Eine bedeutende Rolle spielen die Anzahl der Backlinks und der PageRank der Seite. Der Logik folgend, dass sich Googles Spider von Link zu Link durch das Internet bewegt, entscheidet die externe Verlinkung der jeweiligen Seite, wie oft der Spider vorbei schauen wird. Klar ist auch, dass Google Seiten mit hoher Relevanz öfter einen Besuch abstatten wird. Aber um die Ausgangsfrage zu beantworten: einige Sekunden bis zu einem Monat können vergehen bis der Googlebot eine Seite erneut crawlt (den einzelnen Vorgang nennt man auch Crawl).

Wie sieht Google meine Seite?

Google bietet viele nützliche Dienste für Webmaster. In der Google Search Console findet sich die Funktion “Abruf wie durch Google“. Das Programm simuliert den Crawl und hilft, Probleme zu beheben bevor der Bot tatsächlich vorbei schaut. Das ist vor allem hilfreich, um z.B. Änderungen an der robots.txt Datei schnell zu überprüfen. Probleme bereiten können z.B. Flash-Content oder Javascript- bzw. Ajax-Code.

Kann ich den Googlebot auf meine Seite schicken?

Wie vorhin beschrieben, wann der Bot auf die Seite zugreift ist nur indirekt steuerbar. Ärgerlich, besonders wenn man Änderungen vorgenommen hat, die man schnellst möglich indiziert haben möchte. Einen Ausweg bietet ebenfalls das Tool “Abruf wie durch Google” in der Search Console. Hier findet sich der Befehl “An den Index senden“, so können einzelne URLs und deren Inhalt schneller in den Google Index aufgenommen werden. Da der Algorithmus von Google auch hier gewissen Regeln folgt, ist das Ausführen des Tools aber keine Garantie für eine prompte Indexierung. Tipp: Sitemaps erleichtern dem Googlebot das Durchsuchen der Website.

Die “kleinen” Googlebots

Neben dem Google Bot für die Websuche gibt es noch diverse andere Crawler, die für Google nach speziellen Vorgaben ins World Wide Web geschickt werden. Sie suchen beispielsweise nach Bildern, Videos oder Nachrichten oder überprüfen Zielseiten von Google Adwords Anzeigen auf ihre Qualität (AdsBot). Eine Auswahl (in Klammer das Token des User-Agents):

  • Nachrichten (Googlebot-News)
  • Bilder (Googlebot-Image)
  • Smartphones (Googlebot)
  • AdsBot (AdsBot-Google)
  • AdsBot Mobile Web Android (AdsBot-Google-Mobile): Der Google Adsbot überprüft die Anzeigenqualität für Seiten, die für Android Geräte optimiert sind.

Der Google Bot in der robots.txt

Die robots.txt Datei ist grundsätzlich das Tool der Wahl, um das Crawling von Googles Webcrawler zu steuern. So kann man den Google Crawler gänzlich aussperren um zu verhindern, dass Websites in den Suchergebnissen erscheinen:

User-Agent: Googlebot

Disallow: /

Das Crawling der Site von Bots anderer Suchmaschinen wird so weiterhin zugelassen. Durch spezielle Anweisungen in der robots.txt Datei lässt sich z.B. das Crawlen einzelner Ordner auf den Server durch den Google Bot verhindern:

User-Agent: Googlebot

Disallow: /gesperrter-Ordner/

Über die Definition eines speziellen „User Agent“ lassen sich auch die einzelnen „kleinen“ Webcrawler steuern oder gänzlich sperren.

HTML: Googlebot Meta Tags

Über den HTML Code können auch auf Webseiten selbst Anweisungen für den Bot von Google definiert werden. Auch wenn SEO grundsätzlich darin besteht, eine möglichst gute Platzierung an indexierten Websites im Google Ranking zu erreichen: es macht Sinn gewissen Seiten für Google Bots zu sperren:

<meta name="googlebot" content="noindex, nofollow" />

Findet Googles Bot beim Crawlen auf Webseiten diesen Eintrag in den Meta Tags, wird diese URL nicht im Ranking der Suchmaschine gelistet. Um zu überprüfen ob der jeweilige Meta Tag wie gewünscht greift, empfiehlt sich abermals über „Abruf wie durch Google“. Durch die Funktion der Search Console lässt sich prüfen, wie die URL vom Crawler abgerufen wird. Alle Infos: Meta-Tags, die Google versteht.

Identifikation

Grundsätzlich identifiziert sich der Googlebot auf Seiten über eine entsprechende User Agent Kennung:

Googlebot/2.1 (+http://www.google.com/bot.html) Mozilla/5.0 (compatible);

Googlebot/2.1; (+http://www.google.com/bot.html)

Googlebot-Image/1.0  (Quelle: Wikipedia)

Jedoch versuchen weniger freundliche Bots, sich mit eben dieser Kennung als Besucher von Google zu tarnen. Um dies zu überprüfen, empfiehlt Google einen Reverse DNS Lookup. Eine genaue Anleitung liefert Google in der Anleitung „Googlebot überprüfen„.

Fazit

Der Googlebot ist an sich ein typischer Crawler. Seine Funktionsweise zu verstehen, ist ein wichtiger Bestandteil im Suchmaschinen Marketing. Wie man mit ihnen umgeht, ob Linkoptimierung, Seitenstruktur, robots.txt oder Meta-Tags (noindex, nofollow) im Quelltext, sollte zum kleinen Einmal-Eins des SEOs gehören. Google selbst bietet praktische Tools um den Umgang mit dem Robot zu erleichtern. Und wenn sich der Bot von Google wohlfühlt, sollten das auch die Bots der Konkurrenz tun.

VIDEO: Googles Matt Cutts über die Zeit zwischen Crawls

Weitere interessante Links zum Thema: