Web Crawler, auch bekannt unter den Namen Bot, Spider, Robot oder Searchbot sind Programme die automatisiert im Internet Webseiten analysieren (crawlen) und anschließend in einen Index aufnehmen (indexieren). In der Suchmaschinenoptimierung kommt ihnen eine besondere Bedeutung zu, sind sie es doch, die entscheiden, ob eine Seite indiziert wird oder nicht. In SEO Kreisen spricht man daher auch von „Crawler Friendly Websites“ – gemeint sind Seiten die Crawlern ein möglichst störungsfreies Abarbeiten ihrer Aufgaben ermöglichen.

Entstehung der ersten Crawler

Anfang der neunziger Jahre kam die Idee auf einen Crawler zu entwickeln, der im Stande war, das Wachstum des damals noch vergleichsweise überschaubaren Internets zu messen. Der daraus entstandene World Wide Web Wanderer erzeugte einen eigenen Index namens Wandex, eine Funktionsweise wie sie moderne Crawler heute noch aufweisen. Die aus diesem Prinzip entstandene erste Volltextindex-Suchmaschine WebCrawler war schließlich auch namensgebend für diese Art von Software.

Wie arbeiten Crawler?

Es mag inzwischen unzählige verschiedene Bots geben, ihre grundlegende Funktionsweise folgt jedoch stets dem selben Muster. Im Vorfeld wird definiert, welche Seiten oder Inhalte gecrawlt werden sollen, welchen Links der Spider folgen soll oder welche Zeitintervalle eingehalten werden sollen. Die zugrunde liegenden Logiken und Grundsätze werden in der sogenannten „Crawl Frontier“ definiert. Bei klassischen Suchmaschinen-Crawlern arbeitet sich der Crawler von URL zu URL, sofern er nicht durch vordefinierte Grenzen oder spezielle Maßnahmen (robots.txt, nofollow) davon abgehalten wird. Die dabei gefundenen Hyperlinks werden einer Liste von URLs hinzugefügt, die dabei gefundenen Inhalte werden indiziert (einem Index hinzugefügt).

Arten von Crawlern

Auch wenn sich die meisten Bots vom Grundprinzip her kaum unterscheiden, heute gibt es spezialisierte Spider für die unterschiedlichsten Aufgaben. Die gängigsten Crawler im Überblick:
  • Die Webcrawler der Suchmaschinen: der bekannteste unter ihnen ist wohl der Googlebot. Allerdings ist er nur einer von vielen die Google für seine verschiedenen Dienste nutzt. Weitere Beispiele sind Yahoos Slurp oder Microsofts Bingbot.
  • Focused Crawler: Focused Crawler oder auch fokussierte Webcrawler sind speziell auf ein Themengebiet zugeschnitten. Sie versuchen z.B. im Vorfeld zu antizipieren, ob ein Folgelink zum definierten Thema passt. Der Fokus kann sich dabei auf unterschiedlichste Vorgaben beziehen, z.B. Länderkennungen oder Seiten mit bestimmten Themen wie „SEO“.
  • Data Mining: hierbei werden gezielt Daten abgefragt, diese können unterschiedlicher Natur sein, und entsprechend auch für unterschiedliche Zwecke eingesetzt werden. Im Data-Mining eingesetzte Harvester (zu deutsch in etwa Erntemaschine) greifen z.B. gezielt auf im Internet zugängliche E-Mailadressen zu. Nicht selten werden diese dann für Spam-Versand verwendet. Versuche die Adressen im Quellcode vor den Harvestern zu verstecken können von den meisten modernen Bots umgangen werden. Sogenannte Facebook-Crawler greifen hingegen auf die öffentliche Daten von Facebook Profilen zu.

Weitere Spider-Bots

  • Auch bei der Suche nach Plagiaten im Internet kommen Bots zum Einsatz. Sie sind in der Lage große Datenmengen auf Plagiate zu untersuchen die womöglich sonst nie entdeckt würden. Ein bekannter Dienst der mittels Crawlern Plagiate entlarvt ist turnitin.com.
  • Heritrix ist ein Bot zur Webarchivierung unter der Free Software Licence.
  • Neben der Makrosphäre Internet können Bots auch kleine Aufgaben übernehmen. In CMS Systemen wie Typo3 können Bots spezielle Aufgaben wie eine verbesserte Such-Indexierung übernehmen.

SEOs und Bots

Für Suchmaschinenoptimierer ist die Beschäftigung mit dem Thema unausweichlich. Schließlich definiert der SEO-Experte die Bedingungen unter denen Suchmaschinenbots die eigene Website crawlen. Schlecht optimierte Seiten können dazu führen, dass Bots den Crawl vorzeitig abbrechen oder relevante Inhalte erst gar nicht Crawlen. Unter bestimmten Bedingungen kann es hingegen auch sinnvoll sein, bestimmte Seiten für Spider zu sperren oder gewisse Bots ganz auszuschließen. Bekanntestes Werkzeug für den Umgang mit Bots sind die Meta Tags noindex bzw. nofollow:
 <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
  Diese simple Codezeile teilt den Bots mit, dass die Seite nicht in den Index aufgenommen werden soll (noindex). Außerdem sollen weiterführende Links ignoriert werden (nofollow). Diese Befehle stehen exemplarisch für den Umgang mit Crawlern. Sind sind jedoch nur die Spitze des Eisbergs. Versierte SEOs benutzen ihrerseits ebenfalls eine Vielzahl von Bots um Probleme auf ihrer Website zu identifizieren. Tools wie Xenu crawlen Websites nach Broken Links (tote links) und helfen so das Ranking zu verbessern.

Fazit

Der Begriff Crawler steht heute für eine Vielzahl von Programmen die die unterschiedlichsten Aufgaben übernehmen können, viele davon definieren das Internet in seiner heutigen Form mit. Im SEO Bereich sind Bots allgegenwärtig. Ob in Form von Besuchen der Suchmaschinen-Spider, oder als praktisches Hilfsmittel bei der Optimierung von Webseiten. Nur wer versteht wie sie arbeiten, kann sie auch zu seinem Vorteil nutzen. Weitere interessante Links zum Thema:
Rating: 4.5/5. 4 Bewertungen