Was ist ein Crawler?

Crawler ist eine andere Bezeichnung für eine Suchmaschine. Dieses Programm durchsucht selbständig das Web. Der Name „Crawler“ stammt von der ersten Suchmaschine. Bei der Durchsuchung werden Webseiten sowie Informationen komplett ausgelesen und mit einem Index versehen. Die Zurücklegung des Weges im Internet erinnert an das Netz einer Spinne. Deswegen wird der Crawler auch als Spider bezeichnet. Bei dem Besuch von Internetseiten werden meistens Hyperlinks genutzt. Diese Webseiten sind auch bereits mit einem Index versehen. Der bereits gelesene Inhalt wird anschließend im Cache gespeichert. Danach erfolgt die Auswertung und eventuelle Indexierung. Basis der Indexierung ist der Algorithmus der jeweiligen Suchmaschine. Diese Daten werden anschließend in den Suchresultaten der Suchmaschinen wiedergegeben.

Wozu dient ein Crawler?

Crawler stellen das Kerninstrument sämtlicher Suchmaschinen dar. Dadurch können die Inhalte im Web gefunden und indexiert werden. Die URL wird hierbei immer aufgenommen. Durch die Weiterleitung der Webseiten an die Suchmaschinen erhält jede Internetadresse eine Umformung in eine IP-Adresse. Dadurch wird der Kontakt mit den Servern hergestellt. Für diesen Vorgang öffnet der Crawler auf einmal zahlreiche hunderte Verbindungen. Die Übertragungsdauer ist geringer und der Server wird nicht überlastet. Bei Problemen einer Verbindung wird unverzüglich eine andere selektiert. In einer Sekunde werden bis zu 30 Seiten durchsucht.