1 Einleitung

Die Akzeptanz des Internet ist in den Jahren seit der Einführung des World Wide Web (WWW) in allen Bereichen stark gestiegen. Dies betrifft sowohl den kommerziellen und privaten Sektor als auch die wissenschaftliche Nutzung, die bis Anfang der 90er Jahre im Internet vorherrschend war. Fast alle Universitäten, wissenschaftlichen Einrichtungen und Bibliotheken präsentieren sich, zumindest in den entwickelten Industrieländern, mit eigenen Angeboten. Diese beinhalten nicht nur Informationen über die jeweilige Einrichtung, sondern meist auch zahlreiche wissenschaftliche Informationen und Texte[1], wie Lehrmaterialien, Studienarbeiten, elektronische Dissertationen, Vorabdrucke wissenschaftlicher Printpublikationen, Projektberichte, z.T. referierte (peer reviewed), elektronische Zeitschriften, Tagungsankündigungen und -programme, Forschungsberichte oder Konferenzbeiträge.[2] Bibliotheken stellen Teile ihrer Bestände digitalisiert zur Verfügung. Diese Entwicklung wird in verschiedenen Digitalisierungsprojekten gefördert. Beispiele sind das im Januar 1989 von der Deutschen Forschungsgemeinschaft (DFG) genehmigte und von den Informations- und Kommunikationsinititaitven der wissenschaftlichen Fachgesellschaften initiierte Projekt "Dissertationen Online"[3] oder Projekte zur retrospektiven Digitalisierung von Bibliotheksbeständen.[4]

Somit ist das Internet trotz der Nachteile vieler enthaltener Dokumente, wie ungeprüfte Qualität und mangelnde Stabilität (vgl. Kap. 2), für die wissenschaftliche Informationssuche zu einer wichtigen Quelle neben den traditionellen Printpublikationen geworden. A. Lebedev beschrieb, welche Gründe ein Wissenschaftler hat, Informationen im Internet zu suchen:

"You can ask me why I continue to search in the Net instead of using INSPEC, CAS and other professional databases? The answer is very simple: in the Net I can found [find] a lot of interesting supplementary information: on authors, their works and research projects, on the foundations supporting these works and so on. You can't find this information in professional databases."[5]

Neben wissenschaftlichen Informationen finden sich im WWW auch unzählige kommerzielle Angebote sowie private Homepages von sehr unterschiedlicher Qualität und Zielsetzung. Durch diese Menge und Vielfalt an Daten wird es zunehmend schwieriger, gezielt Informationen zu finden. Als Konsequenz entstanden in den letzten Jahren zahlreiche Suchdienste und Ressourcenverzeichnisse. Inzwischen existieren hunderte solcher Dienste mit großen Unterschieden in Umfang, Arbeitsweise und Zielsetzung. Daher werden zunehmend Übersichten oder Tutorials bis hin zu ganzen Büchern angeboten, die sich mit der Problematik der Informationssuche im Internet beschäftigen und Überblicke über die vorhandenen Suchwerkzeuge zu geben versuchen.[6] In diesen Materialien wird zum großen Teil davon ausgegangen, daß es nur der richtigen Benutzung der Suchdienste bedarf, um die Informationen zu finden, die man benötigt.

Dennoch gibt es viele Kritiken der Suchdienste in ihrer jetzigen Form. D.E. Zimmer schrieb z.B. in Die Zeit:

"Die allgemeinen Suchmaschinen finden regelmäßig viel zuviel, das meiste von zweifelhaftem Wert oder nur marginal zum Thema gehörend."[7]

Viele Wissenschaftler und professionelle Informationsvermittler nutzen trotz der Fülle an Daten das Internet nur spärlich zur Suche nach wissenschaftlichen Informationen und beklagen die Qualität der Suchergebnisse.

Die vorliegende Arbeit hat das Ziel, kritisch zu untersuchen, inwieweit die gegenwärtig existierenden, relevanten Suchdienste[8] für das WWW Anforderungen an die Suche nach wissenschaftlichen Informationen im Internet erfüllen. Es wird davon ausgegangen, daß wissenschaftliche Nutzer andere bzw. höhere Anforderungen an Suchwerkzeuge stellen als die breite Masse der Internetanwender. Dazu werden die Kriterien wissenschaftlicher Informationssuchender herausgearbeitet und überprüft, inwieweit diese gegenwärtig von den Suchdiensten erfüllt werden. Im Hinblick auf die Fragestellung soll ein Überblick über die relevanten Funktionalitäten sowie den Stand der derzeitigen Entwicklung gegeben und Schwächen der Dienste aufgezeigt werden. Gleichzeitig werden Entwicklungen und Projekte im Bereich der Suchdienste vorgestellt, die zur Behebung dieser Schwächen beitragen können.

Vergleichende Studien haben ergeben, daß die verschiedenen Suchdienste erhebliche Unterschiede im Deckungsbereich aufweisen. S. Feldman bemerkte dazu:

"Sadly, each service turned out to cover a somewhat different part of the Web, and to index the overlapping parts sufficiently differently so that cut-and dried prediction is out of the question."[9]

In weiteren Studien, wie der von Ding und Marchionini[10] wurde festgestellt, daß es bei den Ergebnissen verschiedener Suchdienste auf die gleiche Suchanfrage kaum Überlappungen gibt und daß für eine umfassende Suche keiner der Dienste allein ausreichend ist. Die Arbeit hat daher nicht zum Ziel, den besten Suchdienst zu finden oder verschiedene Dienste unter dem Gesichtspunkt zu vergleichen, welcher Dienst für welche Fragestellung am besten geeignet sei.[11] Der Schwerpunkt der Arbeit liegt statt dessen auf einer Analyse der Funktionalitäten der Suchdienste, anhand derer die für die jeweilige Fragestellung relevanten Dienste ausgewählt werden können.

Die Untersuchung beschäftigt sich mit öffentlich zugänglichen Suchdiensten für das WWW. Private, individuelle Dienste, sog. Intelligent Agents, die von einem Client aus operieren, werden außer acht gelassen, da momentan kaum funktionsfähige Systeme existieren.[12] Weiterhin unbeachtet bleiben Dienste, die sich ausschließlich auf einzelne Protokolle und Ressourcentypen (z.B. Emailadressen, FTP, Gopher, telnet, WAIS, OPACs) beziehen. Diese Typen von Ressourcen haben andere Eigenschaften. Die Suche nach ihnen stellt daher zumindest teilweise andere Anforderungen an die Funktionalitäten der Suchdienste. Eine Einbeziehung in die vorliegende Untersuchung würde den Rahmen der Arbeit sprengen.

Die Arbeit ist in fünf Teile gegliedert. Einführend werden in Kapitel 2 diejenigen Merkmale des Internets und der im Internet existierenden Dokumente beschrieben, die für die Problematik der Informationssuche bedeutsam sind. Dokumente im Internet werden mit traditionellen, gedruckten Publikationen verglichen und die Charakteristika der verschiedenen Typen dargestellt. In Kapitel 3 wird ein Überblick über die verschiedenen Typen von Suchdiensten im Internet gegeben und die Funktionsweise der wichtigsten Dienstetypen beschrieben. Generelle Stärken und Schwächen, die sich aus der Arbeitsweise der einzelnen Typen ergeben, werden benannt. Die Anforderungen wissenschaftlicher Nutzer an Suchdienste im Internet werden in Kapitel 4 herausgearbeitet. Grundlage dafür sind die Charakteristika konventioneller Mittel der Informationsrecherche, Studien zum Endnutzerverhalten in elektronischen Rechercheinstrumenten sowie in der Literatur genannte Anforderungen an die wissenschaftliche Informationssuche im Internet. Diese werden durch zwei Szenarien belegt, in denen charakteristische Informationsbedürfnisse wissenschaftlicher Informationssuchender benannt werden. Den Hauptteil bildet das fünfte Kapitel. In diesem Teil wird überprüft, inwieweit die aus Kapitel 4 resultierenden Anforderungen für die wissenschaftliche Informationssuche von den Suchdiensten erfüllt werden. Zunächst werden aus diesen allgemeinen Anforderungen unter Berücksichtigung der Besonderheiten der Informationssuche im Internet jeweils konkrete Kriterien entwickelt, die dann auf die Suchdienste angewandt werden. Die Untersuchung erfolgt, wo dies sinnvoll erscheint, getrennt nach den unterschiedlichen Dienstetypen. Im Abschlußkapitel 6 werden die gewonnenen Erkenntnisse zusammengefaßt.

Die URL aller erwähnten Suchdienste sind in einem Verzeichnis am Ende der Arbeit zu finden.

[1] Die wissenschaftliche Nutzung des Internet umfaßt dabei erheblich mehr als das Angebot von Texten und Informationen. Wichtige Bereiche sind auch die Nutzung verteilter Ressourcen (z.B. von Spezialsoftware), Kommunikation mit Fachkollegen, unterstützt durch Mailinglisten und Newsgroups, verteiltes Arbeiten m.H. von Email, Austausch von Dokumenten, Multimediaanwendungen (Videokonferenzen), Fernlernen (telelearning), Datenbankangebote etc.

[2] Bsp. enthalten u.a. Bücher und Artikel in wissenschaftlichen Zeitschriften zur Nutzung des Internet für verschiedene Fachrichtungen, wie Bloom 1996; Korff 1996; Batinic 1997 oder Internet 1996

[3] s. Diepold 1998

[4] In der Bibliotheque Nationale de France sind z.B. schon 2750 Werke und 7000 Graphiken digital verfügbar (s. Gallica 1997), die Library of Cogress plant bis zum Jahr 2000 die Digitalisierung von 5 Mio. Americana (s. DFG 1996, S. 142); in Deutschland liegt der Schwerpunkt in den DFG-geförderten Digitalisierungszentren SUB Göttingen und Bayrische Staatsbibliothek (s. GDZ 1997).

[5] Lebedev 1997, Kap. Search engines and professional databases

[6] vgl. z.B. Karzauninkat 1997; Bekavac 1997; Binder 1997. Weitere Beispiele solcher Veröffentlichungen finden sich in den ersten beiden Abschnitten der Bibliographie: Koch 1997c

[7] Zimmer 1997

[8] In die Analysen wurden vor allem die für den entsprechenden Typ etabliertesten Suchdienste, sowie solche, die sich besonders an wissenschaftliche Nutzergruppen wenden und diejenigen Dienste einbezogen, die hinsichtlich der Kritierien der Untersuchung besonders fortgeschrittene Funktionalitäten anbieten.
Bei den roboterbasierten Suchdiensten hat die starke Konkurrenz unter den Diensten dazu geführt, daß die Entwicklungen im wesentlichen von wenigen großen Diensten ausgehen. Diese unterliegen ständigen Veränderungen und Erweiterungen der Funktionen und sind gleichzeitig diejenigen Dienste, die aufgrund der Menge der verzeichneten Ressourcen und der relativ fortgeschrittenen Suchmöglichkeiten am meisten genutzt werden.

[9] Feldman 1997, Kap. Testing Web Search Engines

[10] s. Ding 1996 , S. 139

[11] Es existieren eine ganze Reihe vergleichender Studien (s. Koch 1997c; Kap. Search service comparisions), in denen die Suchdienste entweder anhand von Testfragen oder ihrer Funktionalitäten miteinander verglichen werden. Aufgrund der Verschiedenheiten der Dienste sowie der Menge und Vielfalt der im Internet vorhandenen Daten sind solche Vergleiche jedoch sehr problematisch. Das wird in den methodischen Schwächen deutlich, die ein Großteil der Studien aufweist (nicht repräsentative Zahl von Testfragen, subjektive Relevanzbeurteilung, Auswertung beschränkt auf die höchstgerankten Treffer, willkürliche Auswahl von Funktionalitäten, Vergleich von Diensten verschiedener Typen und Arbeitsweise).

[12] vgl. Koch 1997d