World Wide Web-Wanderer
Der World Wide Web Wanderer, wurde 1993 entwickelt. Ursprünglich wurde die auch nur als Wanderer bekannte Suchmaschine, zur Größenmessung des damals noch relativ kleinen Internets benutzt. Um dies zu messen, wurden einfach alle aktiven Server im Web gezählt. Das damals in der Programmiersprache Pearl geschriebene Programm, stellt den ersten wirklichen Webcrawler dar!

Sehr bald wurde der "Wanderer" über die Rahmen seiner ursprünglichen Aufgabe verwendet. Es wurden nun auch alle URLs gespeichert und in "Wandex" - der so benannten Datenbank gespeichert, welche er besuchte.

Da die damaligen Bandbreiten bekanntlicherweise sehr gering waren, und der WorldWideWeb-Wanderer durch das hundertmalige Besuchen einer Internetpräsenz pro Tag beträchtliche Bandbreitauslastugen verursachte, wurde durch dieses Problem 1994 ein Standard für Roboter erstellt. Wie Sie wohl ahnen werden, handelt es sich hierbei um die Textdatei robots.txt. Die Intention war, einem Webcrawler auch Webspider und Webroboter genannt, durch eine einfache Textdatei bestimmte Zugriffe für bestimmte Crawler zu verbieten oder zu erlauben.

robots.txt-Syntax:
ROBOTS = ( USERAGENT+DISALLOW+)*
USERAGENT = "User-agent: " ( "*" | name ) newline
DISALLOW = "Disallow: " ( e | "/" | path | file ) name newline
Die robots.txt-Datei enthält mehrer USERAGENT-Zeilen, gefolgt von einer oder mehreren DISALLOW-Zeilen. In eine USERAGENT-Zeile steht zunächst immer "User-agent: ". Mit dieser Zeile lassen sich bestimmte Webcrawler durch einen Namen definieren. Mit der Angabe "*", lassen sich auch Regeln für alle Webcrawler erstellen. Für alle definierten Webcrawler gelten dann die entsprechenden DISALLOW-Zeilen. In diesen kann entweder der Pfad eines Verzeichnisses oder eine Datei angegeben werden, die von dem benannten Webcrawler nicht besucht werden soll. Durch das Slash "/" wird angegeben, dass keine weiteren Internetseite dieses Servers besucht werden sollen. Wird nach dem Disallow nichts angegeben, darf der angegebenen Webcrawler alles besuchen.

Beispiel für Syntax:
User-agent: botname
Disallow: /
Bei diesem Beispiel darf der Webcrawler mit dem Namen botname keine der Internetseiten dieses Servers besuchen.
User-agent: *
Disallow: /home/private.html
Disallow: /private/
Bei diesem Beispiel dürfen von keinem Webcrawler die Datei private.html und das Verzeichnis /private/ besucht werden.
User-agent: botname Disallow:
Der Webcrawler botname darf jede Seite besuchen.

Ein Problem, welches dieser Standard birgt, ist dass leider nur eine robots.txt-Datei pro Server vorhanden sein darf, die im Wurzelverzeichnis des Webservers abgelegt sein muss. Wem also über keinen eigenen Webserver verfügt