Basis-, Mehrwert-und Metainformationsdienste Kurs 30.4.2001 (Konstanz) - 12.5.2001 (Berlin) Dozent: Dr. Bernard Bekavac
1 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Suche im Internet / WWW
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
2
Übersicht
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Internetdienste Internetdienste im WWW WWW im InformationsInformationsanbieter anbieter Suchverfahren Suchverfahren und Suchdienste Suchdienste und Suchhilfen Suchhilfen Suchstrategien Suchstrategien Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
3
Übersicht
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Internetdienste Internetdienste im WWW WWW im InformationsInformationsanbieter anbieter Suchverfahren Suchverfahren und Suchdienste Suchdienste und Suchhilfen Suchhilfen Suchstrategien Suchstrategien Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
4
Internetdienste im WWW
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Internetdienst Email Listserver News telnet FTP Chat ICQ WWW
Zugriff Ja Ja Ja Bedingt Ja Ja (Web-Chats) Nein Ja
Referenzierung der Inhalte über WWW / URL Nein Bedingt, abhängig von Betreiber Bedingt (über spez. Server) Nein Ja (anonymous-FTP) Nein Nein Ja
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
5
Übersicht
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Internetdienste Internetdienste im WWW WWW im InformationsInformationsanbieter anbieter Suchverfahren Suchverfahren und Suchdienste Suchdienste und Suchhilfen Suchhilfen Suchstrategien Suchstrategien Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
Informationsanbieter: Privatpersonen
6 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
î Personenbezogene Informationen î Sonstige Informationen URL-Kennung: URL-Kennung: • Meinungen .../~name .../~name • Berichte http://member.aol.com http://member.aol.com • Tips home.t-online.de home.t-online.de • Zusammenstellungen usw. î z.T. auch illegale Informationen • Downloads kommerzieller Software, MP3-Files • Private Informationen anderer Personen / Institute usw. Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
Informationsanbieter: Kommerzielle Organisationen / Unternehmen
7 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
î Organisations-/ Unternehmensbezogene Informationen • Geschäftsfelder • Unternehmensbereiche • Adressen, Anfahrtswege • Kundenreferenzen usw. î Produktbezogene Informationen • Produktkataloge • Händlerlisten URL-Kennung: URL-Kennung: • Hotlines (Email) usw. .com .com î Electronic Commerce Länderspezifisch(.de, (.de,.com.uk, .com.uk,...) ...) Länderspezifisch • Warenkorbsysteme • Banking • Software-Downloads usw. Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
Informationsanbieter: Universitäten, Institute und sonstige Forschungseinrichtungen
8 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
î Studienbezogene Informationen • Fakultäten, Sektionen • Studiengänge, -pläne, Prüfungsordnungen • Vorlesungsmaterialien • Ankündigungen usw. î Wissenschaftliche Publikationen • Forschungsberichte URL-Kennung: URL-Kennung: • Tagungsbeiträge usw. In D D Kürzel: Kürzel: uni, uni, fh, fh,tu, tu, fu,... fu,... In Sonst: .edu .edu î (Public-Domain) Software Sonst: î Forschungs- / Projektdatenbanken î Studentenbezogene Informationen Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
Informationsanbieter: Non-Profit Organisationen
9 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
î Regierungen • Zusammensetzung • Gesetzestexte URL-Kennung: • Öffentlichkeitsarbeit usw. URL-Kennung: .org .org .net î Politische Parteien .net Länderspezifisch(.de,...) (.de,...) • Programme Länderspezifisch • Personen usw. î Umwelt- / Menschenrechtsorganisationen î Diverse Vereine î Kirchenverbände î u.a. Department Institute of Library Science – Humboldt University Berlin of Computer and Information Science at the University of Constance
Informationsanbieter: Kommerzielle Online-Dienste
10 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
î häufig lange Tradition î Herkunft: l l l
l
l l
Verlage (Springer, Munzinger, Hoppenstedt, ...) Andere kommerzielle Anbieter (Reuters, Banken, etc...) Fachinformationseinrichtungen (DIMDI, FIZ Karlsruhe, IZ Sozialwissenschaften, ...) Öffentliche Hand (DIN, Dt. Patentamt, Umweltbundesamt, BMBF, EU, ...) Bibliothekswelt (Deutsche Bibliothek, TIB, OCLC, ...) Neue Service-Provider (MSN, AOL, Point Cast, ...)
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
Informationsanbieter: Gateway zu Online-Hosts (1)
11 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
î Excellent Abstracting and Indexing Layer mit hochstrukturierten Informationen und typspezifischen Suchmöglichkeiten î Hohe Leistungsfähigkeit und Verfügbarkeit î Hohe Qualität der Information î Datenbanken mit Texten, Fakten und aggregierten Daten î Proprietäre Information Retrieval Systeme î "Standartisierte" Abfragesprachen î Sukzessives Suchen mit Möglichkeiten zur schrittweisen Verfeinerung der Suche Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
Informationsanbieter: Gateway zu Online-Hosts (2)
12 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
î Spezielle Suchalgorithmen für spezielle Informationstypen î Multifile und Crosssearching î Datenanalyseanwendungen zur Nachbearbeitung î Boole'sche und nicht Boole'sche Suchmöglichkeiten (Ranking) î Selective Dissemination of Information (SDI) î Integrierter Dokumentlieferdienst
In der der Regel Regel In NICHT KOSTENLOS! KOSTENLOS! NICHT Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
Informationsanbieter: Gateway zu Online-Hosts (3)
13 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
î Deutsches Institut für Medizinische Dokumentation und Information - http://www.dimdi.de ca. 90 Datenbanken aus den Bereichen Medizin, Biologie, Sport, Landwirtschaft î FIZ Technik - http://www.fiz-technik.de ca. 120 Datenbanken aus den Bereichen Elektrotechnik, Maschinenbau, Werkstoffkunde î FIZ Karlsruhe - http://www.fiz-karlsruhe.de ca. 120 Datenbanken aus den Bereichen Energie, Physik, Mathematik, Informatik î Genios - http://www.genios.de ca. 140 Wirtschafts- und Firmendatenbanken Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
14
Übersicht
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Internetdienste Internetdienste im WWW WWW im InformationsInformationsanbieter anbieter Suchverfahren Suchverfahren und Suchdienste Suchdienste und Suchhilfen Suchhilfen Suchstrategien Suchstrategien Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
15
Unschärferelation des Internet
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Rein theoretisch ist aufgrund der Natur des Internets alles zugänglich, wodurch es allerdings praktisch unmöglich wird, bei einer Suche nach bestimmten Dingen erfolgreich zu sein. Genau darin besteht die Aufgabe von Computern. T. Prachett, 1999
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
16 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Suchverfahren Suchverfahren und Suchdienste Suchdienste und
Lokale Suche
Katalogbasiert
Roboterbasiert
Metasuche
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
17
Lokale Suche (1)
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
î Über CGI realisiert
Serververzeichnis Web-Server HTML
Suchanfrage
Sonstige
Antwort
Web-Browser Indexierung
î Zugriff auf alle Bereiche des lokalen Serververzeichnisses möglich
Retrievalfunktion (CGI)
Index DB
î Funktionalität abhängig von Indexierung und Retrievalprogramm (CGI) Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
18
Lokale Suche (2)
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Lokale Lokale Suche Suche î Suche: Lokal - Stichworte, navigatorisch Vorteil n
n
Diverse IR-Methoden möglich Sehr hohe Abdeckung
Nachteil n
Beschränkung auf lokale Server und Datenbanken
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
19
Katalog-basierte Suche (1)
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
î Geordnete Zusammenstellung von Verweisen Ordnungshierarchie
Betreiber
Verweise Benutzer Bezeichnung •• Bezeichnung URL •• URL • evtl.Zusatzinformationen Zusatzinformationen • evtl. Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
20
Katalog-basierte Suche (2)
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Lokale Suche
KatalogKatalogbasiert basiert
î Suche: Global - navigatorisch, Stichworte Vorteil n n n
Übersichtlich Rubriken, Kontext Gut zur Einführung
Probleme n n n
Geringe Abdeckung Stichwortsuche nur in Bezeichnungen bzw. Zusatzinformationen Aktualität / Hierarchiezuordnung
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
21
Roboter-basierte Suche (1)
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Internet Anfragenbearbeitung
Dokumentbeschaffung
Retrievalfunktion
Index DB
Benutzer
Roboter
SuchMaschine
WWW WWW
Indexierung
Rekursion URL 1 URL 2
Sonstige Quellen:
... URL n
• Web-Kataloge • Betreiber • usw.
Adressenliste
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
22
Roboter-basierte Suche (2)
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Problembereiche der Dokumentbeschaffung: î WWW-Seiten mit Frames î Bilder mit Links über CGI î Neu erstellte / aktualisierte Dokumente î Nichtverlinkte Dokumente î Geschützte Dokumente î Dynamische Dokumente î Roboter-Exclusion-Standard oder META-Robots-TAG î FTP (Benutzerabhängig) Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
23
Roboter-basierte Suche (3)
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Indexierung: î Wortextraktion mit mehrsprachigen Stoppwortlisten î Exakte Wortschreibweisen (Groß-, Kleinschreibung, Bindestriche...) î Position der Wörter î Berechnung von Dokumentähnlichkeiten î Funktion der Wörter (URL, Titel, Überschrift, Link usw.) î HTML-Elemente (Dateinamen von Bildern, Java-Applets, Kommentare, unbekannte Elemente, die nicht vom Browser angezeigt werden usw.) î Verweisstrukturen (ausgehende/eingehende Links zu einem Dokument usw.) î In der Regel Volltext Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
24
Roboter-basierte Suche (3a)
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
î META-Tag: Über META kann die Indexierung der meisten Suchmaschinen beeinflußt werden Aktualisierung: î HTTP: If-modified-since
î Feste Zeitintervalle î Nach Verweishäufigkeit Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
25
Roboter-basierte Suche (4)
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Relevanzberechnung: î Anzahl gefundener Suchbegriffe aus der Anfrage î Funktion (Position) der gefundenen Begriffe î Statistische Häufigkeit eines Suchwortes innerhalb eines Dokuments î Nähe der Suchbegriffe untereinander innerhalb des Textes î Gesamtanzahl eines Suchbegriffs in der Datenbank î „Popularität“ eines Dokuments î Referenzierung im Katalog
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
26
Roboter-basierte Suche (5)
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Lokale Suche
Katalogbasiert
RoboterRoboterbasiert basiert
î Suche: Global - Stichworte Vorteil n n n
Gute Abdeckung IR-Methoden Gut für spezielle Fragen
Probleme n n n
Trefferanzahl zu hoch Matching-Paradigma Fehlender Kontext
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
27
Metasuche
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
î Mehrere Suchdienste, in der Regel meist nur Suchmaschinen und Kataloge, werden automatisch über eine Schnittstelle (Suchformular, Server) befragt
î Suchdienste werden vorgegeben, können bei einigen Diensten auch vom Benutzer ausgewählt werden î Die Befragung der verschiedenen Suchdienste erfolgt sequentiell oder parallel î Funktionalität und Operatoren der verschiedenen Suchdienste können nur zum Teil verwendet werden î Eliminierung von Mehrfachtreffern aus den Ergebnissen der verschiedenen Suchdienste (über URL-Vergleich) Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
28
Metasuche
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Lokale Suche
Katalogbasiert
Roboterbasiert
MetaMetasuche suche
î Suche: Global - Stichworte Vorteil n
n
Gleichzeitige Befragung diverser verschiedenartiger Suchdienste Aktualität der Suchdienste
Probleme n n
Trefferanzahl zu hoch Mehrfachtreffer
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
29
Systematisierung
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Serverbasiert
Suchverfahren
Lokal
Global
Clientbasiert
• Lokale Suche (Stichwortsuche) • Site-Maps
Stichwortsuche innerhalb der geladenen Web-Seite (einfacher Zeichenkettenabgleich)
• Roboterbasierte Suche • Kataloge / Verzeichnisse • Metasuche
• Agententechnologie • Browserbasierte Suche
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
30
Übersicht
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Internetdienste Internetdienste im WWW WWW im InformationsInformationsanbieter anbieter Suchverfahren Suchverfahren und Suchdienste Suchdienste und Suchhilfen Suchhilfen Suchstrategien Suchstrategien Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
31
Suchhilfen (1)
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
• Verschiedene Suchmodi Simple Search, Advanced / Power Search usw.
• Groß-/Kleinschreibung z.B. Suchbegriffe in Hochkommata setzen
• Trunkierung Suche nach verschiedenen Wortvariationen (*-Operator)
• Gewichtung Bei mehreren Suchbegriffen kann unterschiedliche Gewichtung angegeben werden
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
32
Suchhilfen(2)
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
• Boolesche Operatoren AND, OR, NOT oder +, -
• Phrasensuche und Abstandsoperatoren Such nach der exakten Reihenfolge oder bestimmter Nähe der Suchbegriffe
• Suchraumeingrenzung Suche auf bestimmte Bereiche/Medien eingrenzen
• Treffer-Weiterverarbeitung Nach ähnlichen Dokumenten suchen
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
33
Übersicht
Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Internetdienste Internetdienste im WWW WWW im InformationsInformationsanbieter anbieter Suchverfahren Suchverfahren und Suchdienste Suchdienste und Suchhilfen Suchhilfen Suchstrategien Suchstrategien Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
Suchstrategien: Untersuchung an drei US-Universitäten
34 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
î Pro Sitzung wurden ca. 2,8 Suchanfragen getätigt î Eine Suchanfrage enthielt im Schnitt 2,21 Suchbegriffe (31% ein Suchbegriff, 31% zwei, 18% drei, 7% vier, 4% fünf und 9% mehr als fünf Begriffe) î Benutzung von Suchoperatoren: - Die Operatoren “+” und “-” wurden bei einer von 12 Anfragen verwendet - Boole'sche Operatoren (AND, OR, NOT mit evtl. Klammerung) wurden in einer von 18 Suchanfragen verwendet - Die Möglichkeit von Relevance feedback (“More Like This”) wurde in einer von 20 Anfragen genutzt î Eine iterative Verbesserung der Anfrage bezüglich derselben Fragestellung anhand von bestehenden Suchergebnissen konnte nur in den wenigsten Fällen beobachtet werden Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
Suchstrategien: Vorabüberlegungen zum Informationsbedarf
35 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
• Ist es überhaupt sinnvoll, im WWW zu suchen? • Wo und bei welchen Internet-Diensten könnte die gesuchte Information veröffentlicht sein? • Will man sich in ein neues Themengebiet einarbeiten oder sucht man gezielt nach einer bestimmten Information? • Ist das Thema schwer oder leicht eingrenzbar? • Möchte man nur Neues zu einem Thema erfahren oder laufend darüber informiert werden?
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
Suchstrategien: Auswahl der richtigen Suchbegriffe
36 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
• In welcher Sprache soll recherchiert werden (z.B. Deutsch und/oder Englisch)? • Je größer/spezieller der Suchdienst, desto spezieller sollten die Suchbegriffe sein • Mit speziellen Suchbegriffen beginnen und dann zu allgemeinen übergehen • Sinnvolle Suchhilfen schon im Vorfeld überlegen • Evtl. Synonyme / Akronyme verwenden
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
Suchstrategien: Auswahl geeigneter Suchverfahren
37 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
• Kataloge Einführung in bestimmte Themen • Suchmaschinen Suche nach speziellen Informationen • NewsGroups, Mailinglisten Laufende Informierung über bestimmte Themen
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
Suchstrategien: Relevanzbeurteilung
38 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
• Titel / Zusatzinfos / URL "lesen" (Dienstart, Ländercode, Domainname, Verzeichnispfad) • Ausführliche Trefferangaben einstellen (Detailed) • Treffer parallel übertragen / beurteilen • Relevante Treffer sofort merken / speichern
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance
39 Internetdienste SS 2001 Prof.Kuhlen; Dr.Bekavac
Weiterführende Informationen
http://www.inf-wiss.uni-konstanz.de/suche
Institute of Library Science – Humboldt University Berlin Department of Computer and Information Science at the University of Constance