Der
World Wide Web Wanderer, wurde
1993 entwickelt.
Ursprünglich wurde die auch nur als
Wanderer bekannte Suchmaschine,
zur Größenmessung des damals noch relativ kleinen Internets benutzt.
Um dies zu messen, wurden einfach alle aktiven Server im Web gezählt.
Das damals in der Programmiersprache
Pearl geschriebene Programm, stellt den ersten wirklichen Webcrawler dar!
Sehr bald wurde der "Wanderer" über die Rahmen seiner ursprünglichen Aufgabe verwendet.
Es wurden nun auch alle URLs gespeichert und in "Wandex" - der so benannten Datenbank gespeichert,
welche er besuchte.
Da die damaligen Bandbreiten bekanntlicherweise sehr gering waren, und der WorldWideWeb-Wanderer
durch das hundertmalige Besuchen einer Internetpräsenz pro Tag beträchtliche Bandbreitauslastugen verursachte,
wurde durch dieses Problem
1994 ein Standard für Roboter erstellt.
Wie Sie wohl ahnen werden, handelt es sich hierbei um die Textdatei
robots.txt.
Die Intention war, einem Webcrawler
auch Webspider und Webroboter genannt,
durch eine einfache Textdatei bestimmte Zugriffe für bestimmte Crawler zu verbieten oder zu erlauben.
robots.txt-Syntax:
ROBOTS = ( USERAGENT+DISALLOW+)*
USERAGENT = "User-agent: " ( "*" | name ) newline
DISALLOW = "Disallow: " ( e | "/" | path | file ) name newline
Die robots.txt-Datei enthält mehrer
USERAGENT-Zeilen, gefolgt von
einer oder mehreren
DISALLOW-Zeilen.
In eine USERAGENT-Zeile steht zunächst immer
"User-agent: ".
Mit dieser Zeile lassen sich bestimmte Webcrawler durch einen Namen definieren.
Mit der Angabe
"*", lassen sich auch Regeln für alle Webcrawler erstellen.
Für alle definierten Webcrawler gelten dann die entsprechenden DISALLOW-Zeilen.
In diesen kann entweder der Pfad eines Verzeichnisses oder eine Datei
angegeben werden, die von dem benannten Webcrawler nicht besucht werden soll.
Durch das Slash
"/" wird angegeben, dass keine weiteren Internetseite dieses Servers besucht werden sollen.
Wird nach dem Disallow nichts angegeben, darf der angegebenen Webcrawler alles besuchen.
Beispiel für Syntax:
User-agent: botname
Disallow: /
Bei diesem Beispiel darf der Webcrawler mit dem Namen
botname keine der
Internetseiten dieses Servers besuchen.
User-agent: *
Disallow: /home/private.html
Disallow: /private/
Bei diesem Beispiel dürfen von keinem Webcrawler die Datei
private.html und
das Verzeichnis
/private/ besucht werden.
User-agent: botname
Disallow:
Der Webcrawler
botname darf jede Seite besuchen.
Ein Problem, welches dieser Standard birgt, ist dass leider nur eine robots.txt-Datei pro Server vorhanden sein darf,
die im Wurzelverzeichnis des Webservers abgelegt sein muss.
Wem also über keinen eigenen Webserver verfügt