WWW

Basis-, Mehrwert-und Metainformationsdienste Kurs 30.4.2001 (Konstanz) - 12.5.2001 (Berlin) Dozent: Dr. Bernard Bekavac 1 Internetdienste SS 2001 Pro...
Author: Gerhard Jaeger
3 downloads 3 Views 71KB Size
Basis-, Mehrwert-und Metainformationsdienste Kurs 30.4.2001 (Konstanz) - 12.5.2001 (Berlin) Dozent: Dr. Bernard Bekavac

1 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Suche im Internet / WWW

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

2

Übersicht

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Internetdienste Internetdienste im WWW WWW im InformationsInformationsanbieter anbieter Suchverfahren Suchverfahren und Suchdienste Suchdienste und Suchhilfen Suchhilfen Suchstrategien Suchstrategien Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

3

Übersicht

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Internetdienste Internetdienste im WWW WWW im InformationsInformationsanbieter anbieter Suchverfahren Suchverfahren und Suchdienste Suchdienste und Suchhilfen Suchhilfen Suchstrategien Suchstrategien Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

4

Internetdienste im WWW

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Internetdienst Email Listserver News telnet FTP Chat ICQ WWW

Zugriff Ja Ja Ja Bedingt Ja Ja (Web-Chats) Nein Ja

Referenzierung der Inhalte über WWW / URL Nein Bedingt, abhängig von Betreiber Bedingt (über spez. Server) Nein Ja (anonymous-FTP) Nein Nein Ja

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

5

Übersicht

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Internetdienste Internetdienste im WWW WWW im InformationsInformationsanbieter anbieter Suchverfahren Suchverfahren und Suchdienste Suchdienste und Suchhilfen Suchhilfen Suchstrategien Suchstrategien Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

Informationsanbieter: Privatpersonen

6 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

î Personenbezogene Informationen î Sonstige Informationen URL-Kennung: URL-Kennung: • Meinungen .../~name .../~name • Berichte http://member.aol.com http://member.aol.com • Tips home.t-online.de home.t-online.de • Zusammenstellungen usw. î z.T. auch illegale Informationen • Downloads kommerzieller Software, MP3-Files • Private Informationen anderer Personen / Institute usw. Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

Informationsanbieter: Kommerzielle Organisationen / Unternehmen

7 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

î Organisations-/ Unternehmensbezogene Informationen • Geschäftsfelder • Unternehmensbereiche • Adressen, Anfahrtswege • Kundenreferenzen usw. î Produktbezogene Informationen • Produktkataloge • Händlerlisten URL-Kennung: URL-Kennung: • Hotlines (Email) usw. .com .com î Electronic Commerce Länderspezifisch(.de, (.de,.com.uk, .com.uk,...) ...) Länderspezifisch • Warenkorbsysteme • Banking • Software-Downloads usw. Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

Informationsanbieter: Universitäten, Institute und sonstige Forschungseinrichtungen

8 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

î Studienbezogene Informationen • Fakultäten, Sektionen • Studiengänge, -pläne, Prüfungsordnungen • Vorlesungsmaterialien • Ankündigungen usw. î Wissenschaftliche Publikationen • Forschungsberichte URL-Kennung: URL-Kennung: • Tagungsbeiträge usw. In D D Kürzel: Kürzel: uni, uni, fh, fh,tu, tu, fu,... fu,... In Sonst: .edu .edu î (Public-Domain) Software Sonst: î Forschungs- / Projektdatenbanken î Studentenbezogene Informationen Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

Informationsanbieter: Non-Profit Organisationen

9 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

î Regierungen • Zusammensetzung • Gesetzestexte URL-Kennung: • Öffentlichkeitsarbeit usw. URL-Kennung: .org .org .net î Politische Parteien .net Länderspezifisch(.de,...) (.de,...) • Programme Länderspezifisch • Personen usw. î Umwelt- / Menschenrechtsorganisationen î Diverse Vereine î Kirchenverbände î u.a. Department Institute of Library Science – Humboldt University Berlin of Computer and Information Science at the University of Constance

Informationsanbieter: Kommerzielle Online-Dienste

10 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

î häufig lange Tradition î Herkunft: l l l

l

l l

Verlage (Springer, Munzinger, Hoppenstedt, ...) Andere kommerzielle Anbieter (Reuters, Banken, etc...) Fachinformationseinrichtungen (DIMDI, FIZ Karlsruhe, IZ Sozialwissenschaften, ...) Öffentliche Hand (DIN, Dt. Patentamt, Umweltbundesamt, BMBF, EU, ...) Bibliothekswelt (Deutsche Bibliothek, TIB, OCLC, ...) Neue Service-Provider (MSN, AOL, Point Cast, ...)

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

Informationsanbieter: Gateway zu Online-Hosts (1)

11 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

î Excellent Abstracting and Indexing Layer mit hochstrukturierten Informationen und typspezifischen Suchmöglichkeiten î Hohe Leistungsfähigkeit und Verfügbarkeit î Hohe Qualität der Information î Datenbanken mit Texten, Fakten und aggregierten Daten î Proprietäre Information Retrieval Systeme î "Standartisierte" Abfragesprachen î Sukzessives Suchen mit Möglichkeiten zur schrittweisen Verfeinerung der Suche Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

Informationsanbieter: Gateway zu Online-Hosts (2)

12 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

î Spezielle Suchalgorithmen für spezielle Informationstypen î Multifile und Crosssearching î Datenanalyseanwendungen zur Nachbearbeitung î Boole'sche und nicht Boole'sche Suchmöglichkeiten (Ranking) î Selective Dissemination of Information (SDI) î Integrierter Dokumentlieferdienst

In der der Regel Regel In NICHT KOSTENLOS! KOSTENLOS! NICHT Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

Informationsanbieter: Gateway zu Online-Hosts (3)

13 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

î Deutsches Institut für Medizinische Dokumentation und Information - http://www.dimdi.de ca. 90 Datenbanken aus den Bereichen Medizin, Biologie, Sport, Landwirtschaft î FIZ Technik - http://www.fiz-technik.de ca. 120 Datenbanken aus den Bereichen Elektrotechnik, Maschinenbau, Werkstoffkunde î FIZ Karlsruhe - http://www.fiz-karlsruhe.de ca. 120 Datenbanken aus den Bereichen Energie, Physik, Mathematik, Informatik î Genios - http://www.genios.de ca. 140 Wirtschafts- und Firmendatenbanken Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

14

Übersicht

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Internetdienste Internetdienste im WWW WWW im InformationsInformationsanbieter anbieter Suchverfahren Suchverfahren und Suchdienste Suchdienste und Suchhilfen Suchhilfen Suchstrategien Suchstrategien Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

15

Unschärferelation des Internet

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Rein theoretisch ist aufgrund der Natur des Internets alles zugänglich, wodurch es allerdings praktisch unmöglich wird, bei einer Suche nach bestimmten Dingen erfolgreich zu sein. Genau darin besteht die Aufgabe von Computern. T. Prachett, 1999

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

16 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Suchverfahren Suchverfahren und Suchdienste Suchdienste und

Lokale Suche

Katalogbasiert

Roboterbasiert

Metasuche

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

17

Lokale Suche (1)

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

î Über CGI realisiert

Serververzeichnis Web-Server HTML

Suchanfrage

Sonstige

Antwort

Web-Browser Indexierung

î Zugriff auf alle Bereiche des lokalen Serververzeichnisses möglich

Retrievalfunktion (CGI)

Index DB

î Funktionalität abhängig von Indexierung und Retrievalprogramm (CGI) Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

18

Lokale Suche (2)

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Lokale Lokale Suche Suche î Suche: Lokal - Stichworte, navigatorisch Vorteil n

n

Diverse IR-Methoden möglich Sehr hohe Abdeckung

Nachteil n

Beschränkung auf lokale Server und Datenbanken

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

19

Katalog-basierte Suche (1)

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

î Geordnete Zusammenstellung von Verweisen Ordnungshierarchie

Betreiber

Verweise Benutzer Bezeichnung •• Bezeichnung URL •• URL • evtl.Zusatzinformationen Zusatzinformationen • evtl. Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

20

Katalog-basierte Suche (2)

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Lokale Suche

KatalogKatalogbasiert basiert

î Suche: Global - navigatorisch, Stichworte Vorteil n n n

Übersichtlich Rubriken, Kontext Gut zur Einführung

Probleme n n n

Geringe Abdeckung Stichwortsuche nur in Bezeichnungen bzw. Zusatzinformationen Aktualität / Hierarchiezuordnung

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

21

Roboter-basierte Suche (1)

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Internet Anfragenbearbeitung

Dokumentbeschaffung

Retrievalfunktion

Index DB

Benutzer

Roboter

SuchMaschine

WWW WWW

Indexierung

Rekursion URL 1 URL 2

Sonstige Quellen:

... URL n

• Web-Kataloge • Betreiber • usw.

Adressenliste

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

22

Roboter-basierte Suche (2)

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Problembereiche der Dokumentbeschaffung: î WWW-Seiten mit Frames î Bilder mit Links über CGI î Neu erstellte / aktualisierte Dokumente î Nichtverlinkte Dokumente î Geschützte Dokumente î Dynamische Dokumente î Roboter-Exclusion-Standard oder META-Robots-TAG î FTP (Benutzerabhängig) Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

23

Roboter-basierte Suche (3)

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Indexierung: î Wortextraktion mit mehrsprachigen Stoppwortlisten î Exakte Wortschreibweisen (Groß-, Kleinschreibung, Bindestriche...) î Position der Wörter î Berechnung von Dokumentähnlichkeiten î Funktion der Wörter (URL, Titel, Überschrift, Link usw.) î HTML-Elemente (Dateinamen von Bildern, Java-Applets, Kommentare, unbekannte Elemente, die nicht vom Browser angezeigt werden usw.) î Verweisstrukturen (ausgehende/eingehende Links zu einem Dokument usw.) î In der Regel Volltext Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

24

Roboter-basierte Suche (3a)

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

î META-Tag: Über META kann die Indexierung der meisten Suchmaschinen beeinflußt werden Aktualisierung: î HTTP: If-modified-since

î Feste Zeitintervalle î Nach Verweishäufigkeit Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

25

Roboter-basierte Suche (4)

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Relevanzberechnung: î Anzahl gefundener Suchbegriffe aus der Anfrage î Funktion (Position) der gefundenen Begriffe î Statistische Häufigkeit eines Suchwortes innerhalb eines Dokuments î Nähe der Suchbegriffe untereinander innerhalb des Textes î Gesamtanzahl eines Suchbegriffs in der Datenbank î „Popularität“ eines Dokuments î Referenzierung im Katalog

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

26

Roboter-basierte Suche (5)

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Lokale Suche

Katalogbasiert

RoboterRoboterbasiert basiert

î Suche: Global - Stichworte Vorteil n n n

Gute Abdeckung IR-Methoden Gut für spezielle Fragen

Probleme n n n

Trefferanzahl zu hoch Matching-Paradigma Fehlender Kontext

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

27

Metasuche

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

î Mehrere Suchdienste, in der Regel meist nur Suchmaschinen und Kataloge, werden automatisch über eine Schnittstelle (Suchformular, Server) befragt

î Suchdienste werden vorgegeben, können bei einigen Diensten auch vom Benutzer ausgewählt werden î Die Befragung der verschiedenen Suchdienste erfolgt sequentiell oder parallel î Funktionalität und Operatoren der verschiedenen Suchdienste können nur zum Teil verwendet werden î Eliminierung von Mehrfachtreffern aus den Ergebnissen der verschiedenen Suchdienste (über URL-Vergleich) Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

28

Metasuche

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Lokale Suche

Katalogbasiert

Roboterbasiert

MetaMetasuche suche

î Suche: Global - Stichworte Vorteil n

n

Gleichzeitige Befragung diverser verschiedenartiger Suchdienste Aktualität der Suchdienste

Probleme n n

Trefferanzahl zu hoch Mehrfachtreffer

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

29

Systematisierung

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Serverbasiert

Suchverfahren

Lokal

Global

Clientbasiert

• Lokale Suche (Stichwortsuche) • Site-Maps

Stichwortsuche innerhalb der geladenen Web-Seite (einfacher Zeichenkettenabgleich)

• Roboterbasierte Suche • Kataloge / Verzeichnisse • Metasuche

• Agententechnologie • Browserbasierte Suche

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

30

Übersicht

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Internetdienste Internetdienste im WWW WWW im InformationsInformationsanbieter anbieter Suchverfahren Suchverfahren und Suchdienste Suchdienste und Suchhilfen Suchhilfen Suchstrategien Suchstrategien Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

31

Suchhilfen (1)

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

• Verschiedene Suchmodi Simple Search, Advanced / Power Search usw.

• Groß-/Kleinschreibung z.B. Suchbegriffe in Hochkommata setzen

• Trunkierung Suche nach verschiedenen Wortvariationen (*-Operator)

• Gewichtung Bei mehreren Suchbegriffen kann unterschiedliche Gewichtung angegeben werden

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

32

Suchhilfen(2)

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

• Boolesche Operatoren AND, OR, NOT oder +, -

• Phrasensuche und Abstandsoperatoren Such nach der exakten Reihenfolge oder bestimmter Nähe der Suchbegriffe

• Suchraumeingrenzung Suche auf bestimmte Bereiche/Medien eingrenzen

• Treffer-Weiterverarbeitung Nach ähnlichen Dokumenten suchen

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

33

Übersicht

Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Internetdienste Internetdienste im WWW WWW im InformationsInformationsanbieter anbieter Suchverfahren Suchverfahren und Suchdienste Suchdienste und Suchhilfen Suchhilfen Suchstrategien Suchstrategien Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

Suchstrategien: Untersuchung an drei US-Universitäten

34 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

î Pro Sitzung wurden ca. 2,8 Suchanfragen getätigt î Eine Suchanfrage enthielt im Schnitt 2,21 Suchbegriffe (31% ein Suchbegriff, 31% zwei, 18% drei, 7% vier, 4% fünf und 9% mehr als fünf Begriffe) î Benutzung von Suchoperatoren: - Die Operatoren “+” und “-” wurden bei einer von 12 Anfragen verwendet - Boole'sche Operatoren (AND, OR, NOT mit evtl. Klammerung) wurden in einer von 18 Suchanfragen verwendet - Die Möglichkeit von Relevance feedback (“More Like This”) wurde in einer von 20 Anfragen genutzt î Eine iterative Verbesserung der Anfrage bezüglich derselben Fragestellung anhand von bestehenden Suchergebnissen konnte nur in den wenigsten Fällen beobachtet werden Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

Suchstrategien: Vorabüberlegungen zum Informationsbedarf

35 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

• Ist es überhaupt sinnvoll, im WWW zu suchen? • Wo und bei welchen Internet-Diensten könnte die gesuchte Information veröffentlicht sein? • Will man sich in ein neues Themengebiet einarbeiten oder sucht man gezielt nach einer bestimmten Information? • Ist das Thema schwer oder leicht eingrenzbar? • Möchte man nur Neues zu einem Thema erfahren oder laufend darüber informiert werden?

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

Suchstrategien: Auswahl der richtigen Suchbegriffe

36 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

• In welcher Sprache soll recherchiert werden (z.B. Deutsch und/oder Englisch)? • Je größer/spezieller der Suchdienst, desto spezieller sollten die Suchbegriffe sein • Mit speziellen Suchbegriffen beginnen und dann zu allgemeinen übergehen • Sinnvolle Suchhilfen schon im Vorfeld überlegen • Evtl. Synonyme / Akronyme verwenden

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

Suchstrategien: Auswahl geeigneter Suchverfahren

37 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

• Kataloge Einführung in bestimmte Themen • Suchmaschinen Suche nach speziellen Informationen • NewsGroups, Mailinglisten Laufende Informierung über bestimmte Themen

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

Suchstrategien: Relevanzbeurteilung

38 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

• Titel / Zusatzinfos / URL "lesen" (Dienstart, Ländercode, Domainname, Verzeichnispfad) • Ausführliche Trefferangaben einstellen (Detailed) • Treffer parallel übertragen / beurteilen • Relevante Treffer sofort merken / speichern

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance

39 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac

Weiterführende Informationen

http://www.inf-wiss.uni-konstanz.de/suche

Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance