ZURÜCK

Wie funktionieren Google Crawler

hanseranking GmbH
Aktualisiert: 03.04.2025

Kontakt Anrufen

hanseranking GmbH
Aktualisiert: 03.04.2025

Was ist der Crawler?

Bei einem Crawler handelt es sich um ein Programm, mit dessen Hilfe Webinhalte aufgerufen und ausgelesen werden können. Google unterscheidet bei seinen Crawlern zwischen zwei verschiedenen Arten: Ein Crawler für die Desktop-Version und ein Crawler für die Mobile-Version einer Website. Mit der Umstellung auf Mobile First Indexing, kommen die meisten Anfragen des Google Bots über den mobilen Crawler, weshalb eine optimierte Website für mobile Endgeräte besonders wichtig ist.

Wissenswert:

Der Crawling-Prozess läuft automatisiert ab.
Crawler sind auch unter dem Begriff Spider bzw. Bots bekannt.
Google verwendet mehrere Crawler bzw. Google Bots.
Beim Webseiten-Crawling rufen die Google Spider bereits indexierte Webseiten mehrmals auf und folgen dabei allen Links. Über die interne Verlinkung gelangen die Spider auf alle Unterseiten. Über die externe Verlinkung gelangt der Robot auf andere Webseiten.

Wie funktioniert der Google Crawler?

Sobald neue Webseiten erstellt und der Suchmaschine zugänglich gemacht wurden, dauert es einige Zeit, bis sie von Google Crawlern besucht werden – Stichwort: Crawling Queue. Sobald der Google Crawler eine Webseite besucht, landet sie im Processing.

Was passiert während der Processing-Phase?

Google liest rein in HTML erstellte Webseiten aus und schickt sie durch die externe und/oder interne Verlinkung gefundenen Seiten in den Crawling Queue, damit diese erneut ausgelesen werden können.

Wissenswert: Handelt es sich um eine Internetseite, die dynamische Inhalte aufweist (z. B. Javascript), dann wird sie in das sogenannte Render Queue gesteckt, bis das Rendering (WRS) abgeschlossen ist. Ist das Rendering bzw. Processing abgeschlossen, beginnt die Indexierung.

Was passiert beim Rendering und Processing?

Das Crawling reicht nicht aus, damit eine Webseite in der organischen Suche zu finden ist. Während des Processings kommt es zur Verarbeitung der Inhalte (HTML-Content, statische Inhalte z. B. Bilder, CSS-Dateien usw.).

Wissenswert:

Der Bot verfolgt während des Processings alle Links und schickt die gefundenen Seiten in die Crawling Queue.
Bei Webseiten mit dynamischen Inhalten wird ein weiterer Prozess gestartet, das Rendering. Dieser Prozess ist notwendig, damit die Suchmaschine alle Inhalte erfassen kann. Webseiten, die mithilfe von Javascript gestaltet wurden, können beim einfachen Crawling nicht erfasst werden.
Sind zwei Schritte notwendig, damit Google die Inhalte eines Webauftritts lesen kann, dauert es etwas länger, bis eine Webseite im Index ist.

Tipp: Damit es dem Suchmaschinenbot möglich ist, alle Inhalte zu erkennen bzw. zu interpretieren, solltest du ein Crawling aller Webseiten-Assets erlauben.

Was passiert bei der Indexierung?

Während des Indexierungsprozesses erfolgt die Aufnahme der gefundenen Infos in den Index. Man kann sagen, über die vielen Jahre ist praktisch eine riesige Wissensdatenbank bzw. Online Bibliothek entstanden. Sobald ein User den gewünschten Begriff (Keyword) ins Suchfeld eingibt, filtert Google im Index die Infos heraus, die am besten zu den verwendeten Keywords passen.

Wissenswert:

Die Sortierung der Inhalte des Indexes erfolgt mithilfe eines Algorithmus. Diese wird, genauso wie die Verwaltung und die Befüllung des Index ständig optimiert. Letztlich hat sie auch einen direkten Einfluss darauf, in welcher Reihenfolge die Suchergebnisse ausgegeben werden.
Ist die Sortierung nicht gut, besteht die Wahrscheinlichkeit, dass die Ergebnisse nicht zur Suchanfrage passen. Das will Google natürlich nicht, denn je besser das Nutzererlebnis, desto einfacher kann das Unternehmen seine Marktposition behaupten.
In welcher Reihenfolge und für welche Suchbegriffe Webseiten ausgegeben werden, bezeichnet man als Ranking. Anhand welcher Faktoren die Sortierung der Webseite durchgeführt wird, ist nur teilweise bekannt.

Kann man die Indexierung kontrollieren?

Ja, es ist möglich, die Indexierung zu kontrollieren. Du hast die Möglichkeit, dem Spider vorzugeben, welche Inhalte gecrawlt, aber nicht indexiert werden sollen – Stichwort: De-Indexierung mit Meta-noindex.

Seiten, die aus dem Index ausgeschlossen werden sollten, sind z. B. paginierte Seiten. Diese entstehen z. B. durch eine interne Suche. Diese Seiten haben keine einzigartigen Inhalte bzw. Mehrwert zu bieten und sind dadurch für die Suchmaschine nicht relevant.

Wissenswert:

Mithilfe des noindex-Tags kann man den Suchmaschinen-Spidern mitteilen, dass eine Seite nicht indexiert werden soll. Trotzdem folgen die Bots den angegebenen Links. Zudem darf man auch nicht vergessen, dass das Crawl-Budget trotzdem für diese Seiten aufgebraucht wird.
Webseiten, die rein auf HTML basieren, werden in der Regel schneller indexiert, da kein Rendering notwendig ist. Als Nächstes werden die generierten Inhalte in den Index aufgenommen (Asynchronous Processing).
Nur wenn Webseiten die Indexierung problemlos durchlaufen haben, sind sie in der organischen Suche zu finden und können auch ranken.

Im Code des Bots ist das Intervall festgelegt, welche Internetseiten wann wie oft besucht werden. Darauf hat der Webseitenbetreiber keinerlei Einfluss. Er kann aber beim Crawling Einfluss darauf nehmen, welche Unterseite von der Suchmaschine besucht werden sollen.
Die Anzahl der Unterseiten, die ein Google Bot täglich berücksichtigen kann, ist begrenzt. Eine Festlegung des Crawl-Budgets gibt es nicht, da es davon abhängt, wie groß die Seite ist und wie oft sie aktualisiert wird.
Der Ausschluss von Crawlern kann immer nur über die robots.txt erfolgen.

Tipp: Um das Crawling-Budget nicht unnötig zu belasten, sollten die Seiten von der Indexierung ausgeschlossen werden, die du nicht als relevant erachtest.

Was geschieht, sobald die Inhalte einer Webseite aktualisiert werden?

Werden Seiteninhalte aktualisiert und Veränderungen gespeichert, bekommen Besucher der Webseite die aktuelle Variante zu sehen. Der Spider hat aber von den Änderungen noch überhaupt keine Ahnung. Der Bot erfährt erst von den Neuerungen, wenn die Internetseite erneut gecrawlt wird. Das wiederholte Crawlen einer Webseite passiert ganz automatisch. Es kann aber einige Zeit dauern, bis das passiert.

Da Index und Ranking eng miteinander verknüpft sind, ist es ratsam, dem Spider mitzuteilen, dass es Änderungen gegeben hat. In der Regel geht die Indexierung einer Webseite reibungslos vonstatten. Jedoch kann es manchmal etwas dauern, bis sich die Änderungen auch im Suchindex (10 Min – 3 Stunden) bemerkbar machen.

Was kann der Grund sein, warum es mit der Indexierung einer Webseite nicht klappt?

Die Gründe, warum eine Webseite nicht in den Index aufgenommen wird, sind vielfältig, wie z. B.

falsch gesetzte Canonical-Tags
fehlerhafte Meta-Robots-Tags usw.

Sie haben noch Fragen? Zögern Sie nicht, uns anzusprechen!

Jetzt Kontakt aufnehmen

Wie funktionieren Google Crawler

Das könnte Ihr nächstes Thema sein

KI-Chatbots verändern das Nutzerverhalten

Der Satz „Ich google das mal eben“ bekommt ernsthafte Konkurrenz. Immer öfter hört man: „Ich frag mal kurz GPT“ – oder Perplexity oder Gem... mehr

KI-Chatbots vs. Suchmaschinen

Was sind die Zahlen im Traffic-Wettkampf zwischen Suchmaschinen und KI, die jeder SEO kennen muss? Stell dir vor, du sitzt in einem Meeting und dein C... mehr

Hanseranking und der Keywordkönig – Top 10 beim SEO-Contest 2025!

Wir freuen uns riesig: Beim renommierten SEO-Contest 2025 von Agenturtipp.de hat sich Hanseranking mit Bravour in die Top 10 gekämpft und einen stark... mehr

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Speichert die Einstellungen der Besucher, die in der Cookie Box von Borlabs Cookie ausgewählt wurden.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Google Analytics
Name	Google Analytics
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google für Website-Analysen. Erzeugt statistische Daten darüber, wie der Besucher die Website nutzt.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Monate

Akzeptieren	Hotjar
Name	Hotjar
Anbieter	Hotjar Ltd., Dragonara Business Centre, 5th Floor, Dragonara Road, Paceville St Julian's STJ 3141 Malta
Zweck	Hotjar ist ein Analysewerkzeug für das Benutzerverhalten von Hotjar Ltd. Wir verwenden Hotjar, um zu verstehen, wie Benutzer mit unserer Website interagieren.
Datenschutzerklärung	https://www.hotjar.com/legal/policies/privacy/
Host(s)	*.hotjar.com
Cookie Name	_hjClosedSurveyInvites, _hjDonePolls, _hjMinimizedPolls, _hjDoneTestersWidgets, _hjIncludedInSample, _hjShownFeedbackMessage, _hjid, _hjRecordingLastActivity, hjTLDTest, _hjUserAttributesHash, _hjCachedUserAttributes, _hjLocalStorageTest, _hjptid
Cookie Laufzeit	Sitzung / 1 Jahr

Akzeptieren	Facebook Pixel
Name	Facebook Pixel
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Cookie von Facebook, das für Website-Analysen, Ad-Targeting und Anzeigenmessung verwendet wird.
Datenschutzerklärung	https://www.facebook.com/policies/cookies
Cookie Name	_fbp,act,c_user,datr,fr,m_pixel_ration,pl,presence,sb,spin,wd,xs
Cookie Laufzeit	Sitzung / 1 Jahr

Akzeptieren	LinkedIn
Name	LinkedIn
Anbieter	LinkedIn Ireland Unlimited Company, Wilton Place, Dublin 2, Ireland
Zweck	Cookie von LinkedIn Insight-Tag, das für Website-Analysen, Ad-Targeting und Anzeigenmessung verwendet wird.
Datenschutzerklärung	https://de.linkedin.com/legal/privacy-policy
Cookie Name	bcookie, bscookie, JSESSIONID, lang, lidc, sdsc, li_gc, li_mc, UID, UserMatchHistory, AnalyticsSyncHistory, lms_ads, lms_analytics, li_fat_id, li_sugr, U, _guid, izographicsOptOut, li_giant, lms_ads, li_sugr, U, _guid, A3, anj, uuid2, dpm, dextp, demdex, dst, lnkd, aam_uuid, MUID, MR, IDE, fr, personalization_id, GUC, B, test_cookie, _gcl_au, _gcl_aw, _gcl_dc, brwsr, ABSELB, IRLD, barometric[cuid], tluid, oribi_cookie_test, oribi_session, oribi_user_guid, oribili_user_guid, uids, l_page, _rdt_uuid
Cookie Laufzeit	Sitzung / 1 Jahr

Akzeptieren	Vimeo
Name	Vimeo
Anbieter	Vimeo Inc., 555 West 18th Street, New York, New York 10011, USA
Zweck	Wird verwendet, um Vimeo-Inhalte zu entsperren.
Datenschutzerklärung	https://vimeo.com/privacy
Host(s)	player.vimeo.com
Cookie Name	vuid
Cookie Laufzeit	2 Jahre