Spider der Suchmaschinen hängen
im Internet-Dschungel fest
Weniger als 50 Prozent der Web-Seiten erfaßt – Netz wächst zu schnell – Informationen erreichen dennoch die Benutzer

Von Norbert Aschenbrenner (AP)

Frankfurt/M - Internet-Nutzer, die informationshungrig, aber oft ein wenig verloren im Web zappeln, haben mit den Suchmaschinen ein einfaches und ebenso geniales Hilfsinstrument an der Maus. Aufs Stichwort durchpflügen AltaVista (http://www.altavista.digital.com), Hotbot (http://www.hotbot.com), Fireball (http://www.fireball.de) und wie sie alle heißen, Millionen von Web-Seiten nach Treffern.

Was viele Anwender nicht wissen: Selbst die mächtigste Suchmaschine erfaßt dabei weniger als die Hälfte aller Seiten im World Wide Web – von anderen Bereichen im globalen Computernetz ganz zu schweigen.

„Niemand kann genug Hardware aufbringen, um das gesamte Web zu katalogisieren“, gibt Louis Monier, der Cheftechniker von AltaVista unumwunden zu. Als AltaVista 1995 gestartet wurde, standen im Netz mehr als 50 Millionen Seiten auf rund 100.000 Sites, also den Plätzen der Internet-Anbieter.

Heute sind es nach Angaben von Monier 100 bis 150 Millionen Seiten, die sich hinter 650.000 Sites verstecken. AltaVista sucht bei einem Auftrag gerade mal 30 Millionen Seiten nach dem gefragten Stichwort durch. Bei den anderen Suchmaschinen sind die Quoten ähnlich und zum Teil schlechter.

Vor allem die Anbieter klagen über diesen Zustand. „Das ist ja wie ein Telefonbuch, das nur gerade Nummern enthält“, sagt John Pike, der die 6.000 Web-Seiten der Vereinigung der US-Wissenschaftler unter sich hat. Nur 600 davon sind bei AltaVista erfaßt.

Dem Suchmaschinenexperten Danny Sullivan ist das Problem klar, mit dem die Softwareingenieure kämpfen. Aber die Anbieter der Web-Detektive sollten ehrlicher sein, wenn es um die Ansprüche an ihre Produkte geht: „Wenn sie das Netz nur stichprobenartig durchforsten, dann sollten sie das ihren Anwendern sagen.“

Die Schwierigkeiten, mit denen die Hersteller von Suchmaschinen konfrontiert sind, beschränken sich nicht allein auf das Wuchern des Internet. Die Daten sind auch außerordentlich flüchtig, wie die Untersuchung einer Zufallsauswahl von 2.000 Homepages zweier amerikanischer Universitäten ergab. Im Durchschnitt wird der Text alle 75 Tage verändert, viele Seiten indes innerhalb zehn Tagen oder weniger. Manche Seiten verschwinden ganz, andere werden zu anderen Adressen verlegt.

John Nauman von Infoseek (http://www.infoseek.com) erklärt, rund zehn Prozent aller Seiten, die in der Datenbank seiner Suchmaschine aufgelistet sind, existieren einfach nicht mehr. Infoseek will nun regelmäßig alle Seiten durchgehen und auf Änderungen prüfen. Je öfter eine Seite ihr Erscheinungsbild wandelt, desto öfter soll sie auch von einem Spürprogramm besucht werden.

Wer braucht die zweiten 50.000 Treffer?

Von den Index-Suchmaschinen abgesehen, die eine Art Inhaltsverzeichnis für das Web anlegen, holen sich die dienstbaren Rechner ihre Daten alle auf ähnliche Weise: Sie schicken Programme namens Spider ins Web, die wie eine Spinne ihre Fäden im Web ausbreiten, alle Links verfolgen und die gefundenen Seiten in einer riesigen Datenbank speichern.

Falls kein Link zu einer Seite besteht, wird sie auch nicht entdeckt – es sei denn der Verfasser meldet sie bei der Suchmaschine an. Die Spider haben Probleme mit speziellem Datenmaterial, wie es Forscher in Formeln oder Diagrammen ins Netz stellen. Mit Paßwörtern geschützte Seiten sind für sie ebenfalls nicht ohne weiteres zugänglich.

Eine Möglichkeit, den Datendschungel in den Griff zu bekommen, könnte die Suche über Schlüsselwörter sein. Das würde voraussetzen, daß die Verfasser der Angebote ehrliche und korrekte Angaben machen. Aber heute schon sind die Datenfelder in manchen Fällen mit ein und demselben Schlüsselbegriff vollgestopft, um Suchmaschinen zu überlisten. Die betreffende Seite soll damit in der Trefferpriorität möglichst weit oben eingeordnet werden.

Monier sieht eine Chance für spezialisierte Suchmaschinen, die mehr in die Tiefe gehen könnten. Seiner Ansicht nach werden die Schwierigkeiten der Suchmaschinen aber überbewertet. Das Wachstum des Netzes werde irgendwann zu einem Ende kommen. Es gebe schon Anzeichen für eine Verlangsamung, sagte er in der britischen Wissenschaftszeitschrift „New Scientist“.

Trotz allem arbeiten die Suchmaschinen aber recht effizient. Laut Nauman enthält die Datenbank von Infoseek Informationen von 25 bis 30 Millionen Textseiten. Rund 90 Prozent aller Anfragen werden aber schon von einer Million Seiten mit den meisten Zugriffen abgedeckt. „Wenn die gesuchte Information auf den Seiten der ersten 50.000 Treffer steht“, fragt Nauman provozierend, „brauchen die Anwender dann wirklich auch noch die zweiten 50.000 Seiten?“

zurück

© Nordbayern Infonet