|
Dieser Text basiert auf dem "WWW-Roboter FAQ" von Martijn Koster in englischer Sprache (http://info.webcrawler.com/mak/projects/robots/faq.html).
Übersetzt und ergänzt von Norbert Specht.
Über Web-Roboter
Ein WWW-Roboter ist ein Programm, dass das WWW mittels der Hyperlinks in HTML-Dokumenten automatisch von einer Seite
zur nächsten "gelinkten" Seite springt, den Inhalt der Seite nach bestimmten Kriterien und Regeln indiziert und das
Ergebnis in einer Datenbank speichert. In menschlichen Maßstäben gemessen also ein Power-Surfer mit einem absoluten
Gedächtnis, der nichts anderes zu tun hat als seinen Bekannten Tag und Nacht mit Tipps für die Suche im WWW zur Seite zu
stehen.
Andere Bezeichnungen für WWW-Roboter sind: "Web Wanderer, Web Crawler, und Spider. Die Begriffe sind ein wenig
irreführend, da sie die Vermutung nähren das Programm bewege sich wie ein Virus durch den WWW-Raum. Dies ist jedoch nicht
richtig. WWW-Roboter sind Programme, die andere WWW-Orte nur dadurch "besuchen", indem sie die dort befindlichen
HTML-Dokumente abrufen.
zurück
Das Wort "Agent" wird heutzutage in Bezug auf die EDV sehr häufig für unterschiedliche Bedeutungen benutzt.
- Autonome Agenten
- sind Programme, die sich selbständig von Server zu Server bewegen und selbst über das wann und wohin und den Zweck
ihrer Datenreise entscheiden . Bisher können sich diese Programme jedoch nur zwischen besonderen und wenig verbreiteten
Servern im Internet bewegen
- Intelligente Agenten
- werden Programme genannt, die ihren Benutzern bei bestimmten Angelegenheiten unterstützen, etwa bei der Auswahl von
Produkten, oder bei der Suche nach Daten, oder beim Ausfüllen eines Formulars (Anm. Assistenten in Microsoft-Produkten).
Meist haben diese Programme nur wenig mit Netzwerken zu tun.
- User-Agent
- ist ein technischer Begriff für Programme, die im Netzwerk bestimmte Aufgaben für den Benutzer ausführen.
WWW-User-Agenten sind z.B. der Netscape Explorer, oder etwa ein Email Programm wie Eudora usw..
zurück
Als Suchmaschine wird ein Programm bezeichnet, dass einen bestimmten Satz Daten durchsucht. Im Zusammenhang mit dem WWW
wird der Begriff "Suchmaschine" meist für die als Formular gestaltete Benutzeroberfläche einer von einem Roboter erzeugten
Datenbank im WWW gefundener HTML-Dokumente benutzt.
zurück
Roboter können für eine Anzahl von Zwecken eingesetzt werden.
- Indizierung
- HTML Gültigkeitsprüfung
- Link Gültigkeitsüberprüfung
- "Was ist neu?" Einordnung (Anm. Neue Seiten im BN)
- Mirroring (Anm. Server-Spiegelung)
zurück
All diese Begriffe werden prinzipiell für die gleiche Sache verwendet, mit geringen Abweichungen.
- Roboter
- der ursprüngliche Name, siehe oben.
- Spiders (Spinnen)
- funktionieren genauso wie Roboter, aber der Begriff hört sich in der Presse halt etwas "cooler" an. (Anm: Das gilt
wohl eher für die englischsprachige Presse ...).
- Worms (Würmer)
- auch mit diesem Begriff werden WWW-Roboter bedacht, obwohl mit "Worms" eigentlich technisch gesehen sich selbst
replizierende Programme gemeint sind.
- Web Crawler
- ist auch ein Roboter. Allerdings besitzt ein WebCrawler besondere
Eigenschaften.
- WebAnts (Web-Ameisen)
- Verteilt arbeitende, miteinander kooperierende WWW-Roboter.
zurück
Es gibt einige Gründe warum manche Leute glauben, dass die WWW-Roboter dem WWW schaden:
- Manche Roboterprogramme können (und haben) in der Vergangenheit zu Überlastungen des Netzes und von Servern geführt.
Dies geschieht besonders bei Roboterprogrammen im Beta-Stadium, und bei von weniger erfahrenen Programmieren erstellten
Robotern. Heute ist genug über die Funktionsweise von Robotern bekannt um solche Fehler zu vermeiden.
- Roboter werden von Menschen bedient die Fehler in der Konfiguration des Programms machen können, oder einfach die
Auswirkung ihres Tuns nicht genügend kennen. Dies bedeutet, daß die Bediener von Roboter-Programmen vorsichtig im Umgang
mit dem Programm sein müssen und die Autoren von Roboterprogrammen es den Bedienern schwer machen müssen, Fehler zu
begehen.
- Web-weite indizierende Roboter bilden eine zentrale Datenbank, die oftmals von den Millionen von Dokumenten auf
Millionen verschiedener Servern überfordert wird.
Die große Mehrheit der WWW-Roboter sind jedoch gut programmiert und werden professionell betreut. Sie verursachen keine
Probleme und stellen einen wertvollen Dienst bereit, für den es ansonsten keinen Ersatz gibt.
Die Antwort ist also "nein". WWW-Roboter sind weder alle notwendigerweise schädlich, noch sind alle notwendigerweise
besonders nützlich.
zurück
Eine WWW-Robot-Homepage finden Sie unter:
http://info.webcrawler.com/mak/projects/robots/robots.html
Obwohl diese Seite auf dem Server eines der wichtigsten WWW-Roboter liegt, finden Sie hier eine neutrale und ziemlich
umfassende Sammlung an Informationen zum Thema. Die Seite wird betreut von Martijn Koster <m.koster@webcrawler.com>.
Natürlich finden Sie dort auch die neueste Version dieses Dokumentes in englischer Sprache, und außerdem erfahren Sie dort
noch mehr Einzelheiten über Roboter und eine Robot-Mailing-List, in der technische Diskussionen über WWW-Roboter
stattfinden.
Weitere deutschsprachige Informationen und eine Link-Liste zu Suchmaschinen finden Sie unter
yooma.de
zurück
Jeder Roboter folgt hierbei seiner eigenen Strategie. Grundsätzlich beginnt seine Suche von einer ihm bekannten Liste
von URL´s, speziell von Dokumenten mit vielen Links, wie etwa Serverlisten, Neues-Seiten, und Listen beliebter Seiten im
WWW.
- Die meisten Indexdienste lassen es auch zu eine URL manuell anzugeben, die dann anschließend vom Roboter besucht und
indiziert wird.
- In manchen Fällen werden auch andere Quellen von URL´s benutzt, wie etwa USENET-Nachrichten, und Mail-List-Archive
etc.
- Solchermaßen mit einem Ausgangspunkt ausgestattet, wählt der Robot sämtliche URL´s im gefundenen Dokument für die
weitere Datenreise.
zurück
Sobald ein WWW-Roboter ein Dokument geladen hat entscheidet er selbst darüber, in welcher Art und in welchem Umfang er
den Inhalt des Dokumentes nach Stichworten durchsucht und welche der gefundenen Begriffe er in seine Datenbank einordnet.
Einige Roboter indizieren lediglich den Titel des Dokumentes, andere indizieren alle gefundenen Wörter, andere wiederum
lesen lediglich die für sie bestimmten Informationen aus, benutzen META-Tags, oder andere im Browser sonst nicht sichtbare
Informationen. Manche gewichten die Relevanz des Dokuments noch anhand der gefundenen Begriffe und/oder Links die zu
diesem Dokument führen.
Es steht zu hoffen, dass mit der weiteren Ausweitung des Internets mehr Dienste verfügbar sein werden, die in
effizienter Weise Meta-Informationen für den Zugriff auf Dokumente im WWW zur Verfügung stellt. Daran wird noch
gearbeitet....
zurück
Wie Sie wohl bereits erraten haben, hängt dies vom jeweiligen Roboter-Dienst ab. Die meisten Dienste stellen jedoch ein
Anmeldungsformular für URLs für Ihren Suchdienst zur Verfügung.
Glücklicherweise müssen Sie das nicht mehr bei jedem Dienst von Hand erledigen: Beispiele für Dienst, die dies
erledigen sind:
zurück
Mit META-Tags im Header (zwischen <HEAD> und <BODY>) Ihrer HTML-Seiten können Sie selbst beeinflussen ob und wie Ihre
Seiten indiziert werden. Leider gilt das noch nicht für alle Suchmaschinen - aber doch zumindest für die Wichtigsten. Der
Aufwand lohnt sich also. Hier einige Beispiele für META-Tags, mit denen der Autor einer Web-Seite steuern kann ob die
aktuelle und die folgenden Seiten indiziert werden:
- Diese Seite soll nicht in den Index aufgenommen werden - Hyperlinks werden jedoch ausgewertet.
- <META NAME="ROBOTS" CONTENT="NOINDEX">
- Diese Seite soll nicht in den Index aufgenommen werden - Hyperlinks auf der Seite nicht folgen
- <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
.... oder mit der gleichen Wirkung:
- <META NAME="ROBOTS" CONTENT="NONE">
- Je nach Suchmaschine werden noch weitere META-TAGS ausgewertet. Allerdings gibt es meines Wissens nach hierfür noch
keinen Standard. Informationen hierzu finden sich jedoch meist auf den Hilfe-Seiten der Suchmaschinen. Alta-Vista z.B.
wertet folgende META-Tags aus:
- <META NAME="description" CONTENT="Wir sind Spezialisten im Frisieren von pinkfarbenen Pudeln."> META NAME="keywords"
CONTENT="Hundefrisöre, Hunde, Pudel, Hummelsbüttel, pinkfarbene Pudel"
zurück
|