Kapitel 4 Geschichte des Information Retrieval

HHU Düsseldorf, WS 2008/09

Information Retrieval

55

4. Geschichte des Information Retrieval Memex •

Vision von Vannevar Bush (1945): maschinelle Bereitstellung des Wissens



nicht mittels eindimensionaler Klassifikationssysteme (wie derzeit in Bibliotheken üblich), sondern über assoziative Verbindungen („trails“)

Bush, V. (1945): As we may think. – In: The Atlantic Monthly 176(1), S. 101-108. HHU Düsseldorf, WS 2008/09

Information Retrieval

56

4. Geschichte des Information Retrieval Memex



„The lawyer has at his touch the associated opinions and decisions of his whole experience, and of the experience of friends and authorities. The patent attorney has on call the millions of issued patents, with familiar trails to every point of his client's interest. The physician, puzzled by its patient's reactions, strikes the trail established in studying an earlier similar case, and runs rapidly through analogous case histories, with side references to the classics for the pertinent anatomy and histology. …“ (S. 108). HHU Düsseldorf, WS 2008/09

Information Retrieval

57

4. Geschichte des Information Retrieval 1950

Erstes Auftreten des Wortes „Information Retrieval“ bei Calvin N. Mooers

Mooers, C.N. (1950): Information retrieval viewed as temporal signaling. – In: Proceedings of the International Congress of Mathematicians. Vol. 1, S. 572-573. HHU Düsseldorf, WS 2008/09

Information Retrieval

58

4. Geschichte des Information Retrieval Frühe Forschungen Hans-Peter Luhn: „machine talents“ entdecken! Textstatistik Automatisches Abstracting SDI KWIC Luhn, H.P. (1957): A statistical approach to mechanized encoding and searching of literary information. – In: IBM Journal 1(4), S. 309-317. Luhn, H.P. (1958): The automatic creation of literature abstracts. – In: IBM Journal 2(2), S. 159-165. Luhn, H.P. (1961): The automatic derivation of information retrieval encodements from machine-readable texts. – In: A. Kent (Hrsg.): Information Retrieval and Machine Translation, Vol. 3, Part 2. – New York: Interscience, S. 1021-1028. HHU Düsseldorf, WS 2008/09

Information Retrieval

59

4. Geschichte des Information Retrieval Der Sputnik-Schock • •



4.10.1957: Start von Sputnik1 Schock 1: der Westen kann nichts Vergleichbares; Folge: Apollo-Programm Schock 2: die Signale können nicht entschlüsselt werden, obwohl die entsprechende Publikation (in englisch!) vorliegt; Folge: staatliches Interesse am Informations- und Dokumentationswesen

HHU Düsseldorf, WS 2008/09

Information Retrieval

60

4. Geschichte des Information Retrieval Weinberg-Bericht „Informationsexplosion“ erkannt Aus Informationsüberfluss kann Informationsmangel entstehen Gegenmittel: Informationswissenschaft (besonders: Information Retrieval) Der Weinberg-Bericht hatte große Wirkung (Vorwort von John F. Kennedy)

Alvin M. Weinberg

Weinberg, A.M. (1964): Wissenschaft, Regierung und Information. Genehmigte deutsche Übersetzung des Weinberg-Berichtes vom 10. Januar 1963. – Frankfurt/M.: Deutsche Gesellschaft für Dokumentation. – (Beiheft zu den Nachrichten für Dokumentation; 12). – (Original: 1963). HHU Düsseldorf, WS 2008/09

Information Retrieval

61

4. Geschichte des Information Retrieval Vektorraummodell – Experimente mit natürlichsprachigen Systemen: Gerard Salton – Dokumente und Suchanfragen sind Vektoren in einem n-dimensionalen Raum – SMART (System for the Mechanical Analysis and Retrieval of Text)

Salton, G. (1968): Automatic Information Organization and Retrieval. – New York: McGraw-Hill. Salton, G., Hrsg. (1971): The SMART Retrieval System – Experiments in Automatic Document Processing. – Englewood Cliffs, N.J.: Prentice Hall. Salton, G.; McGill, M.J. (1983): Information Retrieval – Grundlegendes für Informationswissenschaftler. – Hamburg [u.a.]: McGraw-Hill. HHU Düsseldorf, WS 2008/09

Information Retrieval

62

4. Geschichte des Information Retrieval Probabilistisches Modell – Ein Dokument ist mehr oder weniger relevant in bezug auf eine Suchanfrage – bedingte Wahrscheinlichkeit (Relevanz unter der Bedingung der Query) – Relevance Ranking – 1960: Maron & Kuhns – ausgearbeitet vor allem von Cornelis Joost van Rijsbergen

C.J van Rijsbergen

Maron, M.E.; Kuhns, J.L. (1960): On relevance, probabilistic indexing and information retrieval. – In: Journal of the ACM 7, S. 216-244. van Rijsbergen, C.J. (1979): Information Retrieval. – London: Butterworths, 2. Aufl. – (Kap. 6: Probabilistic retrieval). HHU Düsseldorf, WS 2008/09

Information Retrieval

63

4. Geschichte des Information Retrieval Zitationsdatenbanken •

Eugene Garfield gründet 1960 das „Institute for Scientific Information“



Vermarktung von Fußnoten akademischer Zeitschriften („Science Citation Index“)



Vertrieb von Inhaltsverzeichnissen der Zeitschriften als „Current Contents“



Erarbeitung von Kennwerten für den Einfluss der Zeitschriften („impact factor“) Garfield, E. (1955): Citation Indexes for Science. – In: Science 122(3159), S. 108-111. Garfield, E. (1979): Citation Indexing. – New York [u.a.]: Wiley. Cawkell, T.; Garfield, E. (2001): Institute for Scientific Information. – In: Information Services & Use 21, S. 79-86. HHU Düsseldorf, WS 2008/09

Information Retrieval

64

4. Geschichte des Information Retrieval Online-Hosts Vorarbeiten kommerzieller OnlineSysteme: – Roger Kent Summit DIALOG (FuE ab ca. 1960, online seit 1972) – Carlos A. Cuadra: SDC, später ORBIT (Start: 1962; online: 1972) Summit

– Richard H. Giering: Data Central, später: Lexis (Start: Ende der 60er Jahre; online: 1973)

Bourne, C.P.; Hahn, T.B. (2003): A History of Online Information Services, 1963-1976. – Cambridge, Mass.; London: MIT Press. HHU Düsseldorf, WS 2008/09

Information Retrieval

65

4. Geschichte des Information Retrieval Ausarbeitung des probabilistischen Modells (1970er Jahre) •

Robertson – Sparck-Jones - Formel

Stephen E. Robertson Karen Sparck-Jones

Robertson, S.E.; Sparck-Jones, K. (1976): Relevance weighting of search terms. – In: Journal of the American Society für Information HHU Düsseldorf, WS 2008/09 Information RetrievalScience, 27, S. 129-146.

66

4. Geschichte des Information Retrieval Erfolg der kommerziellen elektronischen Informationsdienste (ab 1980er Jahre) Internationale Online-Hosts

Deutsche Online-Hosts

HHU Düsseldorf, WS 2008/09

Information Retrieval

67

4. Geschichte des Information Retrieval Boom durch Suchwerkzeuge im Word Wide Web (ab 1990er Jahre) •

Suchmaschinen der ersten Generation: textorientiert (z.B. AltaVista)



Suchmaschinen der zweiten Generation: zusätzlich an der Webstruktur orientiert (z.B. Google)

Sergej Brin (li.) Larry Page

Louis Monier HHU Düsseldorf, WS 2008/09

Information Retrieval

68

4. Geschichte des Information Retrieval Ausarbeitung linktopologischer Modelle •

PageRank (von Brin und Page)



Kleinberg-Algorithmus (von Jon M. Kleinberg) Jon M. Kleinberg

Brin, S.; Page, L. (1998): The anatomy of a large-scale hypertextual Web search engine. – In: Computer Networks and ISDN Systems, 30, S. 107-117. Page, L. (1998): Method for node ranking in a linked database. – Patent Nr. US 6,285,999. – Priorität: 9.1.1998. – Patentinhaber: The Board of Trustees of the Leland Stanford Junior University. Kleinberg, J.M. (1999): Authoritative sources in a hyperlinked environment. – In: Journal of the ACM, 46 (1999), S. 604-632. HHU Düsseldorf, WS 2008/09 Information Retrieval 69

4. Geschichte des Information Retrieval Web 2.0 •

Kollaborative Dienste



„Web 2.0“ Begriff geprägt von Tim O‘Reilly



Wissensrepräsentation durch „tagging“ und „folksonomies“

O‘Reilly, T. (2005): What is the Web 2.0? www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html HHU Düsseldorf, WS 2008/09 Information Retrieval

70