Was ist ein Web-Crawler/Spider und wie funktioniert er?

Suchmaschinen wie Google sind ein Teil dessen, was das Internet so mächtig macht. Mit wenigen Tastendrücken und einem Klick auf eine Schaltfläche erscheinen die relevantesten Antworten auf Ihre Frage. Aber haben Sie sich jemals gefragt, wie Suchmaschinen funktionieren? Webcrawler sind ein Teil der Antwort.

Was ist ein Webcrawler und wie funktioniert er?

Was ist ein Web-Crawler?

Pixabay - keine Namensnennung erforderlich

Wenn Sie in einer Suchmaschine nach etwas suchen, muss die Suchmaschine Millionen (oder Milliarden) von Webseiten schnell durchsuchen, um die relevantesten Ergebnisse anzuzeigen. Webcrawler (auch bekannt als Spider oder Suchmaschinen-Bots) sind automatisierte Programme, die das Internet „crawlen“ und Informationen über Webseiten auf leicht zugängliche Weise zusammenstellen.

Das Wort „Crawling“ bezieht sich auf die Art und Weise, wie Webcrawler das Internet durchsuchen. Webcrawler werden auch als „Spinnen“ bezeichnet. Dieser Name kommt von der Art und Weise, wie sie das Netz durchsuchen – wie zum Beispiel, wie Spinnen in ihren Spinnennetzen kriechen.

instagram viewer

Webcrawler werten und sammeln Daten auf möglichst vielen Webseiten. Sie tun dies, damit die Daten leicht zugänglich und durchsuchbar sind, weshalb sie für Suchmaschinen so wichtig sind.

Stellen Sie sich einen Webcrawler als den Herausgeber vor, der den Index am Ende des Buches erstellt. Die Aufgabe des Index ist es, dem Leser mitzuteilen, wo im Buch jedes Schlüsselthema oder jede Schlüsselphrase auftaucht. Ebenso erstellt ein Webcrawler einen Index, den eine Suchmaschine verwendet, um schnell relevante Informationen zu einer Suchanfrage zu finden.

Was ist Suchindexierung?

Wie bereits erwähnt, ist die Suchindexierung vergleichbar mit der Zusammenstellung des Indexes am Ende eines Buches. In gewisser Weise ist die Suchindexierung wie das Erstellen einer vereinfachten Karte des Internets. Wenn jemand einer Suchmaschine eine Frage stellt, durchsucht die Suchmaschine ihren Index und die relevantesten Seiten erscheinen zuerst.

Aber woher weiß die Suchmaschine, welche Seiten relevant sind?

Die Suchindexierung konzentriert sich hauptsächlich auf zwei Dinge: den Text auf der Seite und die Metadaten der Seite. Der Text ist alles, was Sie als Leser sehen, während die Metadaten Informationen zu dieser Seite sind, die vom Seitenersteller eingegeben wurden. bekannt als „Meta-Tags“. Die Meta-Tags enthalten Dinge wie die Seitenbeschreibung und den Meta-Titel, die in der Suche erscheinen Ergebnisse.

Suchmaschinen wie Google indizieren den gesamten Text einer Webseite (mit Ausnahme bestimmter Wörter wie „the“ und „a“ in einigen Fällen). Wenn dann ein Begriff in der Suchmaschine gesucht wird, durchsucht diese schnell den Index nach der relevantesten Seite.

Wie funktioniert ein Web-Crawler?

Pixabay - keine Namensnennung erforderlich

Ein Webcrawler funktioniert wie der Name schon sagt. Sie beginnen bei einer bekannten Webseite oder URL und indizieren jede Seite unter dieser URL (meistens fordern Website-Besitzer Suchmaschinen auf, bestimmte URLs zu crawlen). Wenn sie auf diesen Seiten auf Hyperlinks stoßen, erstellen sie eine „To-Do“-Liste mit Seiten, die sie als nächstes durchsuchen. Der Webcrawler setzt dies auf unbestimmte Zeit fort und befolgt dabei bestimmte Regeln, welche Seiten gecrawlt und welche ignoriert werden sollen.

Webcrawler crawlen nicht jede Seite im Internet. Tatsächlich wird geschätzt, dass nur 40-70% des Internets suchindexiert sind (was immer noch Milliarden von Seiten ausmacht). Viele Webcrawler sind so konzipiert, dass sie sich auf Seiten konzentrieren, die als „autoritativer“ gelten. Maßgebend Seiten erfüllen eine Handvoll Kriterien, die es wahrscheinlicher machen, dass sie qualitativ hochwertig oder beliebt sind Information. Webcrawler müssen auch Seiten ständig erneut besuchen, wenn sie aktualisiert, entfernt oder verschoben werden.

Ein letzter Faktor, der steuert, welche Seiten ein Webcrawler crawlt, ist das robots.txt-Protokoll oder das Robots-Ausschlussprotokoll. Der Server einer Webseite hostet eine robots.txt-Datei, die die Regeln für jeden Webcrawler oder andere Programme festlegt, die auf die Seite zugreifen. Die Datei schließt aus, dass bestimmte Seiten gecrawlt werden und welchen Links der Crawler folgen kann. Ein Zweck der robots.txt-Datei besteht darin, die Belastung des Servers der Website durch Bots zu begrenzen.

Um zu verhindern, dass ein Webcrawler auf bestimmte Seiten Ihrer Website zugreift, können Sie das Tag „disallow“ über das robots.txt-Datei oder füge die hinzu keinindex Meta-Tag auf die fragliche Seite.

Was ist der Unterschied zwischen Crawling und Scraping?

Web Scraping ist die Verwendung von Bots zum Herunterladen von Daten von einer Website ohne die Erlaubnis dieser Website. Web-Scraping wird oft aus böswilligen Gründen verwendet. Beim Web-Scraping wird oft der gesamte HTML-Code von bestimmten Websites verwendet, und fortgeschrittenere Scraper übernehmen auch die CSS- und JavaScript-Elemente. Web-Scraping-Tools lassen sich schnell und einfach Informationen zu bestimmten Themen zusammenstellen (z. B. eine Produktliste), aber auch in die graue und illegale Gebiete.

Web-Crawling hingegen ist das Indizieren von Informationen auf Websites mit Erlaubnis, damit diese problemlos in Suchmaschinen auftauchen können.

Beispiele für Web-Crawler

Jede große Suchmaschine hat einen oder mehrere Webcrawler. Zum Beispiel:

Google hat Googlebot
Bing hat Bingbot
DuckDuckGo hat DuckDuckBot.

Größere Suchmaschinen wie Google haben spezifische Bots für verschiedene Schwerpunkte, darunter Googlebot Images, Googlebot Videos und AdsBot.

Wie wirkt sich Web-Crawling auf SEO aus?

Pixabay - keine Namensnennung erforderlich

Wenn Ihre Seite in den Suchmaschinenergebnissen erscheinen soll, muss die Seite für Webcrawler zugänglich sein. Abhängig von Ihrem Website-Server möchten Sie möglicherweise eine bestimmte Crawling-Frequenz zuweisen, welche Seiten der Crawler scannen und wie viel Druck er auf Ihren Server ausüben kann.

Grundsätzlich möchten Sie, dass die Webcrawler sich auf Seiten mit Inhalten konzentrieren, aber nicht auf Seiten wie Dankesnachrichten, Admin-Seiten und internen Suchergebnissen.

Informationen zur Hand

Die Verwendung von Suchmaschinen ist für die meisten von uns zur zweiten Natur geworden, doch die meisten von uns haben keine Ahnung, wie sie funktionieren. Webcrawler sind einer der Hauptbestandteile einer effektiven Suchmaschine und indizieren jeden Tag effektiv Informationen über Millionen wichtiger Websites. Sie sind ein unschätzbares Werkzeug für Website-Besitzer, Besucher und Suchmaschinen gleichermaßen.

TeilenTweetEmail

Programmierung vs. Webentwicklung: Was ist der Unterschied?

Sie denken vielleicht, dass Anwendungsprogrammierer und Webentwickler die gleiche Arbeit machen, aber das ist weit von der Wahrheit entfernt. Hier sind die wichtigsten Unterschiede zwischen Programmierern und Webentwicklern.

Weiter lesen

Verwandte Themen

Technologie erklärt
Web-Suche
Google-Suche
Suchtricks

Über den Autor

Jake Harfield (25 Artikel veröffentlicht)

Jake Harfield ist ein freiberuflicher Autor mit Sitz in Perth, Australien. Wenn er nicht gerade schreibt, ist er normalerweise draußen im Busch und fotografiert die einheimische Tierwelt. Sie können ihn unter www.jakeharfield.com besuchen

Mehr von Jake Harfield

Abonniere unseren Newsletter

Abonnieren Sie unseren Newsletter für technische Tipps, Rezensionen, kostenlose E-Books und exklusive Angebote!

Klicken Sie hier, um zu abonnieren

About Technology - denizatm.com

Was ist ein Web-Crawler/Spider und wie funktioniert er?