Was ist ein Crawler? | Fairrank TV
Articles,  Blog

Was ist ein Crawler? | Fairrank TV


In der Suchmaschinenoptimierung wird sehr häufig von sogenannten Webcrawlern, Searchbots oder auch der Robots.txt-Datei gesprochen. Worum es sich dabei handelt, all das heute im Glossar und damit herzlich Willkommen bei Fairrank TV. Ein Crawler ist ein Programm, das selbstständig das Internet durchsucht und dabei Webseiten und Informationen ausliest und diese in einem Verzeichnis indexiert. Der Weg, den der Crawler dabei im Internet zurücklegt, ähnelt dem eines Spinnennetzes. Er springt quasi von Link zu Link und von URL zu URL. Dementsprechend wird der Crawler auch sehr häufig Spider genannt. Alternative Bezeichnungen sind auch noch Webcrawler, Searchbots oder einfach Robots. Wie bereits erwähnt, besuchen Crawler Webseiten, indem sie von Link zu Link springen und somit von Webseiten, die bereits Links enthalten, auf eine andere Webseite kommen. Der Inhalt der Webseite wird dann ausgelesen und im Cache gespeichert, ausgewertet und bestenfalls auch indexiert. Die Grundlage für diese Indexierung ist der Algorithmus und die Programmierung des jeweiligen Crawlers. Die Daten, die in diesem Index landen, werden dann von den Suchmaschinen als Suchergebnisse ausgegeben. Crawler sind also das Hauptwerkzeug von Suchmaschinen. Ohne Crawler würden Suchmaschinen nicht funktionieren. Dabei unterscheiden sich die Crawler der einzelnen Suchmaschinen teilweise stark voneinander. Viele Crawler sind zum Beispiel so schlau, dass sie erkennen können, ob ein Text, der auf einer Seite steht, bereits auf einer anderen Seite vorhanden ist oder aber, ob die Überschriftenstruktur wirklich Sinn ergibt. Und auch das Thema der Webseite kann sehr gut von den modernen Crawlern erkannt werden. Die Kernaufgabe bei der Suchmaschinenoptimierung ist es, eine Webseite so zu optimieren, dass Crawler sie möglichst einfach lesen und indexieren können. Beispiele für Crawlertypen sind zum Beispiel Data Mining Crawler, die Daten abgreifen wie Email-Adressen oder Telefonnummern. Andere Crawler sind für die Websiteanalyse zuständig, wie zum Beispiel für die Seitenaufrufe und die Absprungrate. Und dann gibt es natürlich noch die Crawler, die von sogenannten Preisvergleisportalen genutzt werden, die verschiedene Seiten analysieren und Preise gegenüber stellen. Dabei gibt es sogenannte Focused oder Topical Crawler. Diese Crawler sind so programmiert, dass sie wirklich nur einen Themenbereich abdecken. So gibt’s zum Beispiel Crawler, die nur nach Urheberrechtsverletzungen im Internet suchen. Wie unterscheiden sich gute von schädlichen Crawlern? Als Websitebetreiber möchtest du natürlich gefunden werden und gibst dementsprechend auch deine Webseite für Suchmaschinenbots frei. Aber auch andere Bots können deine Webseite nun indexieren. Und das ist nicht immer gut. Ein großes Ärgernis sind schädliche Bots. Schädliche oder böse Bots können in verschiedenen Formen und Varianten auftauchen. So gibt es sogenannte Spambots, die deine Webseite solange zu spammen, bis der Server in die Knie geht. Oder die bereits erwähnten Data Mining Bots. Die müssen nicht immer gut sein, sondern können auch böse Absichten haben, wie zum Beispiel das Abgreifen der Email-Adressen deiner Kunden. Die dann mit Spam- oder Phishing-Mails überhäuft werden. Die in den 90er Jahren entwickelten Robots Exclusion Standards sind eine Schutzmaßnahme gegen das unerwünschte Indexieren von Webseiten. Dieser Standard legt fest, dass Crawler oder auch Bots das crawlen einer Webseite mit der Robots.txt-Datei beginnen. Diese Datei regelt, welche Bots auf die Webseite dürfen und welche nicht. Im Stammverzeichnis der Webseite liegend beinhaltet die Robots.txt-Datei Regeln, die dem User-Agent des Bots sagen, auf welchem Bereich der Webseite er sich bewegen darf. Dabei kann man ihm entweder besondere Wege auf der Webseite vorgeben oder aber ihn auch komplett aussperren. Bei schädlichen Crawlern sollte das auf jeden Fall gemacht werden. Soviel zum Thema Webcrawler und Robots.txt. Wenn euch der Beitrag gefallen hat, dann zeigt es wie immer mit einem Daumen nach oben, folgt unserem YouTube-Kanal und liked uns auf Facebook und Instagram. Ciao.

Leave a Reply

Your email address will not be published. Required fields are marked *