ZURÜCK
Wie funktionieren Google Crawler

Wie funktionieren Google Crawler

Hanseranking 23. Dezember 2021

Was ist der Crawler? 

Bei einem Crawler handelt es sich um ein Programm, mit dessen Hilfe Webinhalte aufgerufen und ausgelesen werden können. Google unterscheidet bei seinen Crawlern zwischen zwei verschiedenen Arten: Ein Crawler für die Desktop-Version und ein Crawler für die Mobile-Version einer Website. Mit der Umstellung auf Mobile First Indexing, kommen die meisten Anfragen des Google Bots über den mobilen Crawler, weshalb eine optimierte Website für mobile Endgeräte besonders wichtig ist. Wissenswert:
  • Der Crawling-Prozess läuft automatisiert ab.  
  • Crawler sind auch unter dem Begriff Spider bzw. Bots bekannt.  
  • Google verwendet mehrere Crawler bzw. Google Bots. 
  • Beim Webseiten-Crawling rufen die Google Spider bereits indexierte Webseiten mehrmals auf und folgen dabei allen Links. Über die interne Verlinkung gelangen die Spider auf alle Unterseiten. Über die externe Verlinkung gelangt der Robot auf andere Webseiten.

Wie funktioniert der Google Crawler? 

Sobald neue Webseiten erstellt und der Suchmaschine zugänglich gemacht wurden, dauert es einige Zeit, bis sie von Google Crawlern besucht werden – Stichwort: Crawling Queue. Sobald der Google Crawler eine Webseite besucht, landet sie im Processing.  

Was passiert während der Processing-Phase? 

Google liest rein in HTML erstellte Webseiten aus und schickt sie durch die externe und/oder interne Verlinkung gefundenen Seiten in den Crawling Queue, damit diese erneut ausgelesen werden können.   Wissenswert: Handelt es sich um eine Internetseite, die dynamische Inhalte aufweist (z. B. Javascript), dann wird sie in das sogenannte Render Queue gesteckt, bis das Rendering (WRS) abgeschlossen ist. Ist das Rendering bzw. Processing abgeschlossen, beginnt die Indexierung. 

Was passiert beim Rendering und Processing? 

Das Crawling reicht nicht aus, damit eine Webseite in der organischen Suche zu finden ist. Während des Processings kommt es zur Verarbeitung der Inhalte (HTML-Content, statische Inhalte z. B. Bilder, CSS-Dateien usw.).   Wissenswert:  
  • Der Bot verfolgt während des Processings alle Links und schickt die gefundenen Seiten in die Crawling Queue.  
  • Bei Webseiten mit dynamischen Inhalten wird ein weiterer Prozess gestartet, das Rendering. Dieser Prozess ist notwendig, damit die Suchmaschine alle Inhalte erfassen kann. Webseiten, die mithilfe von Javascript gestaltet wurden, können beim einfachen Crawling nicht erfasst werden.  
  • Sind zwei Schritte notwendig, damit Google die Inhalte eines Webauftritts lesen kann, dauert es etwas länger, bis eine Webseite im Index ist.  
Tipp: Damit es dem Suchmaschinenbot möglich ist, alle Inhalte zu erkennen bzw. zu interpretieren, solltest du ein Crawling aller Webseiten-Assets erlauben.  

Was passiert bei der Indexierung? 

Während des Indexierungsprozesses erfolgt die Aufnahme der gefundenen Infos in den Index. Man kann sagen, über die vielen Jahre ist praktisch eine riesige Wissensdatenbank bzw. Online Bibliothek entstanden. Sobald ein User den gewünschten Begriff (Keyword) ins Suchfeld eingibt, filtert Google im Index die Infos heraus, die am besten zu den verwendeten Keywords passen.   Wissenswert:  
  • Die Sortierung der Inhalte des Indexes erfolgt mithilfe eines Algorithmus. Diese wird, genauso wie die Verwaltung und die Befüllung des Index ständig optimiert. Letztlich hat sie auch einen direkten Einfluss darauf, in welcher Reihenfolge die Suchergebnisse ausgegeben werden.  
  • Ist die Sortierung nicht gut, besteht die Wahrscheinlichkeit, dass die Ergebnisse nicht zur Suchanfrage passen. Das will Google natürlich nicht, denn je besser das Nutzererlebnis, desto einfacher kann das Unternehmen seine Marktposition behaupten. 
  • In welcher Reihenfolge und für welche Suchbegriffe Webseiten ausgegeben werden, bezeichnet man als Ranking. Anhand welcher Faktoren die Sortierung der Webseite durchgeführt wird, ist nur teilweise bekannt.  

Kann man die Indexierung kontrollieren? 

Ja, es ist möglich, die Indexierung zu kontrollieren. Du hast die Möglichkeit, dem Spider vorzugeben, welche Inhalte gecrawlt, aber nicht indexiert werden sollen – Stichwort: De-Indexierung mit Meta-noindex.   Seiten, die aus dem Index ausgeschlossen werden sollten, sind z. B. paginierte Seiten. Diese entstehen z. B. durch eine interne Suche. Diese Seiten haben keine einzigartigen Inhalte bzw. Mehrwert zu bieten und sind dadurch für die Suchmaschine nicht relevant.   Wissenswert:  
  • Mithilfe des noindex-Tags kann man den Suchmaschinen-Spidern mitteilen, dass eine Seite nicht indexiert werden soll. Trotzdem folgen die Bots den angegebenen Links. Zudem darf man auch nicht vergessen, dass das Crawl-Budget trotzdem für diese Seiten aufgebraucht wird.  
  • Webseiten, die rein auf HTML basieren, werden in der Regel schneller indexiert, da kein Rendering notwendig ist. Als Nächstes werden die generierten Inhalte in den Index aufgenommen (Asynchronous Processing).  
  • Nur wenn Webseiten die Indexierung problemlos durchlaufen haben, sind sie in der organischen Suche zu finden und können auch ranken. 
  • Im Code des Bots ist das Intervall festgelegt, welche Internetseiten wann wie oft besucht werden. Darauf hat der Webseitenbetreiber keinerlei Einfluss. Er kann aber beim Crawling Einfluss darauf nehmen, welche Unterseite von der Suchmaschine besucht werden sollen.  
  • Die Anzahl der Unterseiten, die ein Google Bot täglich berücksichtigen kann, ist begrenzt. Eine Festlegung des Crawl-Budgets gibt es nicht, da es davon abhängt, wie groß die Seite ist und wie oft sie aktualisiert wird.  
  • Der Ausschluss von Crawlern kann immer nur über die robots.txt erfolgen.  
Tipp: Um das Crawling-Budget nicht unnötig zu belasten, sollten die Seiten von der Indexierung ausgeschlossen werden, die du nicht als relevant erachtest.  

Was geschieht, sobald die Inhalte einer Webseite aktualisiert werden? 

Werden Seiteninhalte aktualisiert und Veränderungen gespeichert, bekommen Besucher der Webseite die aktuelle Variante zu sehen. Der Spider hat aber von den Änderungen noch überhaupt keine Ahnung. Der Bot erfährt erst von den Neuerungen, wenn die Internetseite erneut gecrawlt wird. Das wiederholte Crawlen einer Webseite passiert ganz automatisch. Es kann aber einige Zeit dauern, bis das passiert.  Da Index und Ranking eng miteinander verknüpft sind, ist es ratsam, dem Spider mitzuteilen, dass es Änderungen gegeben hat. In der Regel geht die Indexierung einer Webseite reibungslos vonstatten. Jedoch kann es manchmal etwas dauern, bis sich die Änderungen auch im Suchindex (10 Min – 3 Stunden) bemerkbar machen.  

Was kann der Grund sein, warum es mit der Indexierung einer Webseite nicht klappt? 

Die Gründe, warum eine Webseite nicht in den Index aufgenommen wird, sind vielfältig, wie z. B.  
  • falsch gesetzte Canonical-Tags 
  • fehlerhafte Meta-Robots-Tags usw. 

Sie haben noch Fragen? Zögern Sie nicht, uns anzusprechen!

Jetzt Kontakt aufnehmen