Bei der Datei robots.txt handelt es sich um eine Datei, die sich speziell an Webcrawler richtet. Sie trägt den primären Nutzen das Verhalten dieser Crawler zu steuern, was, genauer gesagt, aus dem Erlauben und Verbieten des Crawlens bestimmter Seiten (oder auch ganzer Verzeichnisse) besteht. Dazu werden die Direktiven allow beziehungsweise disallow verwendet.

Die definierten Regeln können entweder für alle Crawler gelten oder sich nur auf einen Bestimmten beziehen. Als Webseitenbetreiber kann man dadurch zum Beispiel Traffic sparen, indem man die Crawler unwichtiger Suchmaschinen aussperrt. Außerdem lassen sich damit zum Beispiel private Verzeichnisse von der Aufnahme in den Google Index ausschließen.

Ein weiteres Einsatzgebiet dieser Datei ist die Lokalisierung der Sitemap einer Domain, die unter Sitemap näher erläutert wird. In dem unten dargestellten Quellcodeausschnitt wird das Crawlen aller Unterseiten und Verzeichnisse bis auf die Pfade /admin/ und /statistik/ erlaubt. Weiterhin wird die Sitemap unter http://www.example.com/sitemap.xml lokalisiert. Diese Regeln gelten für alle Crawler (spezifiziert durch „*“). Sollen besondere Regeln für bestimmte Crawler gelten, müssen diese über die User Agent Direktive gekennzeichnet werden. Eine Liste der möglichen Robots ist unter http://www.robotstxt.org/db.html zusammengestellt.

User Agent: *
Disallow: /admin/
/statistik/
Sitemap: http://www.example.com/sitemap.xml

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert