Semantic Network Services

Technologie Workshop, 21. April 2004 SNS Semantic Network Services (SNS) Semantic Network Services UDK/gein® Technologie Workshop Düsseldorf, 21.4....
Author: Eugen Amsel
2 downloads 1 Views 1MB Size
Technologie Workshop, 21. April 2004

SNS

Semantic Network Services (SNS)

Semantic Network Services UDK/gein® Technologie Workshop Düsseldorf, 21.4.2004

Zeit:

14:45 – 15:30; Vortrag: 30 Min; Diskussion 15 Min

Lernziele:

Inhalt und Funktionsweise des SNS; Vorteile gegenüber der Volltextsuche; Möglichkeiten und Grenzen der Textanalyse, Ausbaumöglichkeiten

Inhalte: 

Inhaltlicher und technischer Aufbau des SNS (Bestandteile des SNS)



Pflege der Daten



Technik der Textanalyse bezüglich der Verschlagwortung (Vorteil gegenüber einer einfachen Volltext-Indexierung)



Technik der Analyse des Raumbezugs (Wie sicher ist die Erkennung räumlicher Begriffe)



Zukünftige Entwicklungen (Was ist geplant? Was wäre weiterhin machbar?)

Referent: Dipl.-Ing. Thomas Bandholtz Beratender Ingenieur für angewandte Informatik Karl-Friedrich-Schinkelstr. 2 53127 Bonn www.bandholtz.info 0228 9288490 mobil 0179 4700576 [email protected]

[email protected]

1

Technologie Workshop, 21. April 2004

SNS

Inhalt: 1Einführung...............................................................................................................................3 2Kontrolliertes Wortgut in SNS................................................................................................. 3 2.1UmThes® - der Umwelt-Fachthesaurus...........................................................................4 2.2Geo-“Thesaurus“ – ein nationaler Gazetteer................................................................... 5 2.3Umweltkalender – eine Chronologie der Ereignisse........................................................ 6 2.4Integration in eine Topic Map........................................................................................... 8 2.5Ein Beispiel aus der Konzeption.......................................................................................9 2.6Ein Beispiel aus der Praxis.............................................................................................10 3SNS und Öffentliche Umweltinformation im Web................................................................. 13 3.1Das Rauschen von Information...................................................................................... 13 3.2gein® Index.................................................................................................................... 15 3.3Assoziative Suche – „bidirektional“................................................................................ 17 4Automatische Indexierung.................................................................................................... 18 4.1Allgemeines Verfahren................................................................................................... 18 4.2Qualitätsvoraussetzungen..............................................................................................20 4.3Homographen und Kontext............................................................................................ 20 4.4Sonder- und Problemfälle...............................................................................................22 4.5Zwischenruf: Können die es besser als Google?...........................................................23 5Semantic Web Services........................................................................................................25 5.1Frühe Szenarien............................................................................................................. 25 5.2Die Services................................................................................................................... 26 5.3Ready for use................................................................................................................. 27 6Ausblicke...............................................................................................................................29 6.1Erweiterung des Nutzerkreises...................................................................................... 29 6.2Erweiterung der Topic Map............................................................................................ 30 6.3Erweiterung der Protokolle............................................................................................. 31 7Timeline.................................................................................................................................33 8Abbildungen.......................................................................................................................... 34 9Quellen.................................................................................................................................. 35

[email protected]

2

Technologie Workshop, 21. April 2004

SNS

1 Einführung SNS wurde im Wesentlichen von Mai 2001 – Dezember 2002 in dem F+E-Vorhaben "Erstellung eines semantischen Netzworkservice (SNS) für das Umweltinformationsnetz Deutschland - German Environmental Information Network (gein®) – " (UFOPLAN 201 11 612) vom Umweltbundesamt entwickelt. Vorausgegangen waren der Einsatz von kontrolliertem Wortgut und automatischer Verschlagwortung in GEIN 2000 – erfolgreich, aber verbesserungswürdig: "Die gewonnenen Erfahrungen mit der automatischen Verschlagwortung waren zwar von Beginn an durchaus positiv, haben aber auch eine Reihe von Schwachpunkten […] hervorgebracht, wie z.B.: 

Fehlende Integration zwischen Umwelt- und Geo-Thesaurus (Thema und Raum)



Mangelnde Berücksichtigung des Umweltkalenders (Umweltereignissen),



Zu geringe Beachtung von Homonymen (z.B. „Mulde“ als Geländeform oder als Fluss) und zusammengesetzten Begriffen,



Zu wenige Kriterien für die signifikante Gewichtung der Schlagworte innerhalb eines Dokuments." [SNS 2003a, S.10]

Damit einher ging die architektonische Idee, dieses semantische Verfahren stärker zu kapseln und die alleinige Bindung an den gein® Broker zu überwinden. "Ein zweiter Aspekt, der mit dem F+E-Vorhaben aufgegriffen wurde, ist die Nachfrage nach einer Nutzung der Thesauri und Verschlagwortungsverfahren durch die Informationsanbieter von gein® selbst. Damit einher geht die Frage einer Verteilung von Daten und Programmen auf verschiedene Plattformen, einschließlich einer nachhaltigen Aktualisierung der Versionen. Da bei einem solchen Vorgehen von erheblichem Aufwand auszugehen ist, wurde vom gein®Projekt als Alternative eine verteilte Nutzung von weiterhin zentral installierten ThesaurusDiensten vorgeschlagen." [ebd., S. 11]

Der vorliegende Beitrag beschreibt die Entwicklung seit 20011 und gibt einige Ausblicke in mögliche oder bereits geplante Erweiterungen. Einige "Historische" Folien sind in englischer Sprache ausgeführt. Dies liegt insbesondere daran, dass ab 2000 Englisch die Konferenzsprache der jährlichen UmweltinformatikTagung (heute: EnviroInfo) ist. Auch darüber hinaus wurden (und werden) gein® und SNS vielfach auf internationalen Workshops und Kongressen vorgestellt. Wo immer möglich, sind jedoch deutsche Fassungen verwendet.

2 Kontrolliertes Wortgut in SNS "Kontrolliertes Wortgut" ist ein geeigneter allgemeiner Begriff, um verschiedene Strukturtypen wie z.B. Thesaurus, Gazetteer, Taxonomie, semantisches Netz, Topic Maps oder Ontologie einzubeziehen. In GEIN 2000 waren drei solcher Strukturen nebeneinander implementiert: 

UmThes® - der Umwelt-Fachthesaurus



Geo-“Thesaurus“ – ein nationaler Gazetteer



Umweltkalender – eine Chronologie der Ereignisse.

Sie werden hier kurz charakterisiert und es wird beschreiben, wie sie in einer Topic Map miteinander integriert und quervernetzt werden konnten. Eine ausführlichere Darstellung und eine Auseinandersetzung mit Topic Maps finden sich in [WSM 2002 dt.] und [XMLE 2002 en., aber umfassender].

Ein Überblick über die gesamte Entwicklung seit 1998 ist als KTWeb Case Study veröffentlicht [KTWeb 2003]. 1

[email protected]

3

Technologie Workshop, 21. April 2004

SNS

2.1 UmThes® - der Umwelt-Fachthesaurus Der Umwelt-Thesaurus UmThes® ist der langlebige "Dynosaurier" der Umweltterminologie2, der von GEIN 2000 vorgefunden und adaptiert wurde. Er ist praktisch identisch mit dem UBA-Thesaurus. Es handelt sich formell hier um einen konventionellen Thesaurus nach ISO 2788/5964, der lediglich für den internen Gebrauch in UBA-Datenbanken (z.B. ULIDAT) einige operationale Erweiterungen beinhaltet, die in Abbildung 1 durch "Component" und "Morphology" angedeutet sind. composite composite

Morphology

Term Term

Synonym Synonym

Component Component

related related

Descriptor Descriptor

preferred preferred

broader broader

Abbildung 1 Struktur des UmThes®

DIN/ISO "BF"/"UF" wird hier Deskriptor genannt, was neben "Vorzugsbegriff" (preferred term) weit verbreitet ist. Term ist eine Abstraktion, die "Begriff" des kontrollierten Wortguts meint.

Kürzel und Bezeichnung DIN 1463-1 ISO 2788 BF - Benutzt für Synonym UF - Used for BS - Benutze Synonym OB - Oberbegriff

USE/SYN Use synonym BT - Broader Term)

UB - Unterbegriff VB - Verwandter Begriff

NT - Narrower term RT - Related term TT - Top term

Abbildung 2 Relationstypen nach DIN/ISO [aus: WIKI 2004]

Im Zusammenhang der UDK Kooperation mit Österreich gibt es in Wien eine Wortgutredaktion3, welche die inhaltliche Betreuung und Aktualisierung organisiert. In diesem Umfeld entstand auch ein direkter Internetzugang zu diesem Thesaurus4. "Der UDK-T hat nunmehr 8.896 Deskriptoren (Dezember 2000: 8.764, das ist ein Plus von 137 Deskriptoren), davon 107 Ordnungsdeskriptoren, darunter 33 Topterms, und 8789 SchlagwortDeskriptoren. Die Zahl der Nichtdeskriptoren stieg auf 13.333 (Dezember 2000: 12.810). Alle Deskriptoren liegen auch in englischer Übersetzung vor." (Fußnote 3)

2

http://www.umweltbundesamt.de/uba-datenbanken/thes.htm

3

http://www.cedar.at/wgr_home

4

http://193.170.161.213:8080/thesaurus/Thesaurus.jsp

[email protected]

4

Technologie Workshop, 21. April 2004

SNS

Die weitgehende Zweisprachigkeit hängt zusammen mit dem Europäischen Kontext: UmThes® ist zugleich die Deutsche Quelle des heute 22-sprachigen GEneral Multilingual Environmental Thesaurus (GEMET)5. In SNS wurde die Morphologie (d.h. alle Schreibformen der Begriffe) des UmThes® um die neue Deutsche Rechtschreibung erweitert. Die aktuelle UmThes®-Version wird in kürze in SNS nachgezogen.

2.2 Geo-“Thesaurus“ – ein nationaler Gazetteer Es gab zwei Vorgaben für GEIN 2000, die sich hier begegnen: zum einen die Suchkriterien Thema-Raum-Zeit, und zum anderen die Thesaurusunterstützung. Beim Versuch, auch den Raumbezug mit einem "Thesaurus" zu hinterlegen, stießen wir auf das geographische Namensgut des BKG6 und auf den Gazetteer-Standard [OGC 2002]. Grob gesagt, ist ein Gazetteer ein Verzeichnis geographischer Namen, welches auch Lagebeziehungen zwischen den benannten Örtlichkeiten beinhaltet. 1999/2000 wurde das Namensgut des BKG in Zusammenarbeit mit GISU erweitert und als "Geothesaurus" für GEIN verfügbar gemacht [GEIN 2001, S. 24ff] In Wirklichkeit handelt es sich hier nicht um einen Thesaurus wie oben beschrieben. Es gibt zwei wesentliche Unterschiede. Hamburgisches Wattenmeer Niedersächsisches Wattenmeer Ölkontamination Wattenmeer Ostfriesische Inseln und Wattenmeer Schleswig-Holsteinisches Wattenmeer Wattenmeer Wattenmeergebiet Wattenmeerschutz

Ort > Geschützter Bereich > Biosphäre Ort > Geschützter Bereich > Biosphäre Thesauruseintrag > Nichtdeskriptor Ort > Land > Naturraum Ort > Geschützter Bereich > Biosphäre Thesauruseintrag > Deskriptor Thesauruseintrag > Nichtdeskriptor Thesauruseintrag > Deskriptor

Abbildung 3 Thesaurusbegriffe und Geographische Namen zu "Wattenmeer"

Zum einen behandelt ein Thesaurus begriffliche Konzepte (z.B. "Wattenmeer") und nicht einzelne Vorkommen dieses Konzepts (z.B. "Niedersächsisches Wattenmeer"). Diese Unterscheidung mag spitzfindig erscheinen, sie hat aber weit reichende Konsequenzen: ein Thesaurus kennt (zweitens) vor allem hierarchische Beziehungen (Ober-/Unterbegriff) wie sie typisch für Konzepte sind. Dies mag noch in etwa auf die hierarchischen Strukturen der administrativen Gebietseinheiten anwendbar sein. Man könnte etwa sagen, dass das Land NW ein Oberbegriff der Kommune Düsseldorf sei – aber selbst das klingt semantisch falsch. Vollkommen versagt die Hierarchie bei der Beziehung zwischen Düsseldorf und dem hindurch fließenden Rhein7. Wir haben es hier also mit Lagebeziehungen zu tun, von denen nur einige einer Hierarchie ähneln. Um nicht-hierarchische Beziehungen auszudrücken, kennt der Thesaurus allein eine allgemeine Relation ohne näheren Hinweis auf ihre Bedeutung. Der Gazetteer ist dagegen der Spezialist für geographische Lagebeziehungen.

5

http://www.eionet.eu.int/GEMET

6

http://www.bkg.bund.de/GI/Produkte_nat/Vektor/Vektordaten_GN.htm

Auf dem Workshop improvisierte der Referent ein anderes Beispiel: Im Thesaurus sage ich: es gibt Wasserflaschen, und sie können mit Tischen zu tun haben. Der Gazetteer sagt: diese Wasserflasche steht auf diesem Tisch. 7

[email protected]

5

Technologie Workshop, 21. April 2004

intersects intersects

Location Location part of part of

SNS

Names Morphology Types / Layers Coordinates

Abbildung 4 Struktur des Geo-"Thesaurus"

Insgesamt enthält der Geothesaurus ca. 48.000 Objekte in 19 Gebietstypen (Abbildung 5), sowie alle Lagebeziehungen. Geo-Typ Ort -> Verwaltungseinheit Ort -> Verwaltungseinheit -> Staat Ort -> Verwaltungseinheit -> Bundesland Ort -> Verwaltungseinheit -> Gemeinde Ort -> Verwaltungseinheit -> Gemeindeteil Ort -> Land Ort -> Land -> Wassereinzugsgebiet Ort -> Land -> Insel Ort -> Land -> Landschaft Ort -> Land -> Berg Ort -> Land -> Gebirge Ort -> Land -> Naturraum Ort -> Geschützter Bereich Ort -> Geschützter Bereich -> Biosphäre Ort -> Geschützter Bereich -> Nationalpark Ort -> Geschützter Bereich -> Naturpark Ort -> Geschützter Bereich -> Schutzgebiet Ort -> Gewässer Ort -> Gewässer -> Kanal Ort -> Gewässer -> See Ort -> Gewässer -> Stausee Ort -> Gewässer -> Fluss Ort -> Gewässer -> Meer SUMME

Anzahl 1 16 14568 29281 333 57 312 693 211 593 14 13 84 578

Anm. nur Gliederungstyp

in SNS deaktiviert nur Gliederungstyp

nur Gliederungstyp

nur Gliederungstyp

14 223 100 593 93 1023

Abbildung 5 Gebietstypen im Geothesaurus

Nach ersten Erfahrungen mit der Anwendung wurden die 29281 Gemeindeteile allerdings inaktiviert, weil sie in ihrer Namensgebung jegliche Eindeutigkeit vermissen lassen und weil sie im Kontext der in gein® gegebenen, nationalen Sicht entbehrlich erschienen. Es bleiben aber knapp 20.000 geographische Namen als aktive Referenzen für die Angabe des Raumbezugs. Seitdem hat GISU diese Anzahl beträchtlich erweitert. Es ist allerdings noch nicht abschließend geklärt, in welchen Umfang diese Erweiterungen auch für SNS bzw. gein® von Bedeutung sind. Ab 2004 erfolgt offiziell die Pflege des Geothesaurus durch das BKG, auf Basis eines Beschlusses des IMAGI (Interministerieller Ausschuss für Geoinformationswesen8) von 2003. Derzeit wird über das Vorgehen bei der Pflege noch beraten. Über mögliche Entwicklungen in diesem Zusammenhang vgl. Kapitel 6.3.

2.3 Umweltkalender – eine Chronologie der Ereignisse Die Typologie des Umweltkalenders wird in gein® unmittelbar sichtbar9: 8

www.imagi.de

[email protected]

6

Technologie Workshop, 21. April 2004

SNS

Aktionen Geschichte Gesetze Gründungen Katastrophen Konferenzen Konventionen Literatur Natur des Jahres Richtlinien Schiffsunfälle Störfälle Hier handelt es sich um eine unmittelbar aus der Gesamtliste der in SNS enthaltenen (heute 593) Ereignisse generierte HTML-Seite. Morphology Types

sequence sequence

Event Event

Temp. Extent

related related

Abbildung 6 Struktur des Umweltkalenders

Für die verwendete Struktur gab es 1999 kein adäquates Vorbild – heute könnte man an das Modell des RdfCalendar10 im W3C anknüpfen. Es war vielmehr so, dass GEIN 2000 mit dem Geothesaurus sozusagen "auf den Geschmack gekommen" war und nun überlegte, wie auch die Zeit-Dimension mit einer Art Thesaurus zu hinterlegen wäre. Ein wichtiger Anwendungsfall lautete "what happened since Cernobyl?" – also der Bezug auf ein bekanntes Ereignis in der Fragestellung. Wir hielten es nicht für zumutbar, dass der Anwender selbst erst den genauen Zeitpunkt des Ereignisses ermitteln muss, bevor er so eine Frage stellen kann. Beispiele: Geschichte: 2400 v.Chr. Bodenversalzung Etwa um diese Zeit werden aus dem Zweistromland Mesopotamien große Schäden als Folge unzureichender Bewässerungssysteme bzw. fehlender Entwässerungssysteme gemeldet. Konferenzen: 02. November 1998 bis 13. November 1998 Vierte Vertragsstaatenkonferenz in Buenos Aires Die in Kyoto beschlossenen Klimaschutzinstrumente und Kontrollmechanismen werden konkretisiert. Der Aktionsplan bis zum Jahr 2000 zielt darauf hin, …. Katastrophen: Februar 2000 Baia Mare In der nordrumänischen Stadt Baia Mare bricht durch ein Unwetter und technische Fehler der Damm der Kläranlage von der rumänisch-australischen Goldfabrik "Aurul". …. Natur des Jahres: Blume des Jahres 2004 ist das Alpenglöckchen Blume des Jahres ist das Alpenglöckchen (Soldanella alpina). Zurück zur gewählten Struktur: Zum einen haben wir (in SNS, gein® nutzt dies noch nicht erkennbar) eine nicht näher spezifizierte related-Relation, wie sie auch im Thesaurus zu finden ist. Zwar gab es Versuche, Kausalbeziehungen zwischen Ereignissen auszudrücken, insgesamt gab es dafür jedoch keine gesicherte inhaltliche Grundlage, und wir wollten uns nicht auf semantisches Glatteis begeben. Immerhin sind aber zu den meisten Ereignissen Verweise auf externe Information dazu ergänzt worden.

9

http://www.gein.de/html/calendar/index.html

10

http://esw.w3.org/topic/RdfCalendar

[email protected]

7

Technologie Workshop, 21. April 2004

SNS

Andererseits entstehen objektive Bezüge aus der zeitlichen Ausdehnung der einzelnen Ereignisse. Diese sind nicht immer sequentiell, sondern sie können sich auch überlappen, da "Zeiträume" und unterschiedlich genaue "Zeitpunkte" gleichermaßen vorkommen. Hierarchische Beziehungen wären denkbar (z.B. Beschlussfassung als Teil einer Tagung), sind aber bisher nicht aus der Praxis angefordert worden. Die Pflege erfolgt durch das UBA im Rahmen des SNS-Projekts, jedoch konnte dies in den letzten beiden Jahren aufgrund fehlender Kapazität nicht konsequent und kontinuierlich durchgeführt werden.

2.4 Integration in eine Topic Map In GEIN 2000 bestanden diese drei Konstrukte unverbunden nebeneinander. Es gab aber zahlreiche Fälle, speziell bei der automatischen Verschlagwortung, in denen man das kontrollierte Wortgut gern in seiner Gesamtheit angesprochen hätte. Also suchten wir nach einem gemeinsamen Strukturmodell, welches dennoch die unterschiedlichen Sichtweisen von Thesaurus, Geo-"Thesaurus" und Kalender bewahren konnte. Fündig wurden wir in der Topic Map [ISO 13250]. Sie erlaubte vor allem zweierlei: 

die freie Definition von Topic-Typen als Ableitung des abstrakten Topic-Begriffs,



die freie Definition von Relationstypen zwischen festgelegten Topic-Typen.

Damit konnten zunächst Thesaurusbegriffe, geographische Namen und Ereignisse gleichermaßen als typische Topics betrachtet werden, und es konnten die jeweiligen Beziehungen verlustfrei nachmodelliert werden. Doch damit nicht genug: Nun konnten erstmals auch Querbeziehungen zwischen Ereignissen, Orten, und Fachthemen hergestellt werden, wie in Abbildung 7 schematisch dargestellt. Morphology Types

sequence sequence

where where

intersects intersects

Event Event

Temp. Extent

Location Location related related

Topic Topic

part of part of

Morphology Types / Layers Coordinates

what what composite composite

Component Component

related related

Morphology

Thesa. Thesa.

Descriptor Descriptor

Synonym Synonym preferred preferred

broader broader

Abbildung 7 Strukturintegration in der Topic Map

Genau dies geschah in SNS, und zwar mit Hilfe der bestehenden automatischen Indexierung. Zu jedem Ereignis gab es eine Kurzbeschreibung, aus der Deskriptoren und geographische Namen gewonnen worden, die offenbar mit dem Ereignis zu tun haben. Dies war die Grundlage für eine weitere manuelle (intellektuelle) Bearbeitung.

[email protected]

8

Technologie Workshop, 21. April 2004

SNS

Die Konsequenzen dieser Vernetzung sind bisher für den gein® Anwender noch nicht erahnbar, werden von der in SNS neu entwickelten automatischen Indexierung aber schon ausgiebig benutzt: es ist jetzt möglich, an das System Fragen zu stellen wie, z.B.: 

zeige alle Topics, die irgendeine Beziehung zum Topic "Wattenmeer" aufweisen



zeige alle Ereignisse, die mit dem Ort Düsseldorf in Verbindung stehen, usw.

Folgende Frage würde jedoch zurückgewiesen: "Zeige alle Orte, die eine Lagebeziehung zu einem Synonym haben" – dies ist falsch, denn Lagebeziehungen sind nur innerhalb des Geo-Thesaurusanteils (location) der Topic Map gültig. Kapitel 6.2 zeigt einige Beispiele für mögliche Erweiterungen dieses Modells.

2.5 Ein Beispiel aus der Konzeption Der use case "What happened since Chernobyl?" ist schon im Abschnitt über den Umweltkalender erwähnt worden, er kann jedoch nicht mit dem Umweltkalender allein beantwortet werden. Dieser kennt zwar das Datum, zum Verständnis der Frage gehört jedoch mehr. Dies kann eine (in dieser Konsequenz noch ungeschriebene) Anwendung aus dem Zusammenhang der gesamten Topic Map entnehmen, wie in Abbildung 8 verdeutlicht. In der Topic Map ist abgelegt, dass es sich um einen Unfall in einem Kernkraftwerk in dem Ort namens Chernobyl, damals in der UDSSR (heute Ukraine) handelt. Daraus lässt sich eine Suchanfrage konstruieren, die der gegebenen Fragestellung schon recht nahe kommt und "mehr weiß" als dem buchstäblichen Wortlaut entnommen werden kann. Dies ist ein Beispiel aus der Konzeption – die Begriffe sind so nicht alle in der Topic Map wirklich enthalten. Insbesondere beschränkt sich der Geo-Thesaurus nach wie vor auf Deutschland.

Topic class Topic instance Association

Topic Topic Thesaurus Thesaurus

Descriptor Descriptor Nuclear Energy

broader

Event Event Accident Accident

Location Location

Nation Nation

Communi tyty Communi

ex. USSR Ucraine

Nuclear Accident

Chernobyl radiation disaster 1986-04-26

Chernobyl

situated in

where what

occurrence

www.chernobyl.com/ Abbildung 8 What happened since Chernobyl?

Dieses Beispiel führt übrigens nahezu zwangsläufig zu der Erkenntnis, dass für eine Erweiterung des Geothesaurus nicht zwingend eine exakte geographische Datengrundlage erforderlich ist. [email protected]

9

Technologie Workshop, 21. April 2004

SNS

Im Sinne eines semantischen Netzes könnte eine Wortgutredaktion folgern: Wir wissen, dass es einen Ort namens Chernobyl gibt, der in einem Staat namens UDSSR lag. Die UDSSR grenzte an Polen, und Polen grenzt an Deutschland. Also könnte man diese geographischen Namen als Topics und die entsprechenden Lagebeziehungen als Relationen ergänzen – eine exakte geographische Grundlage ist für diese Semantik nicht erforderlich. Weiterhin wird die zeitliche Gültigkeit der Objekte und Relationen problematisiert: die UDSSR gibt es nicht mehr – es gibt aber noch Informationen über die UDSSR. Das Gleiche gilt übrigens für Gemeindereformen, was die Relevanz des Problems sicher deutlicher macht. Bisher ist dies in so weit berücksichtigt, dass alle Topics ein "Verfallsdatum" tragen können. Allerdings sind noch keine "Nachfolge"- Relationen enthalten, mit denen z.B. ausgedrückt werden könnte, dass Gemeinde X von Gemeinde Y "eingemeindet" wurde.

2.6 Ein Beispiel aus der Praxis Ein reales Beispiel zeigt dagegen Abbildung 9. Die Erste Vertragsstaatenkonferenz der UNFCC ist hier unmittelbar mit "Klimakonvention" und mit "Berlin" vernetzt (ein vollständigeres Bild gibt Abbildung 11). Betrachtet man die weiteren Außenbeziehungen, so wird deutlich, dass man auf diese Konferenz stoßen wird, wenn man nach dem Verhältnis Deutschlands zu internationalen Konventionen fragt. Auch dies ist so noch nicht in gein® implementiert – SNS bietet aber bereits die Voraussetzungen dafür. Die Zeitangabe ist mit "28.3.-7.4.1999" recht genau – man könnte sogar nach Ereignissen suchen die während dieser Konferenz geschahen – dafür ist dieser Kalender aber noch nicht detailliert genug. Topic class Topic instance Association

Topic Topic Thesaurus Thesaurus

Descriptor Descriptor

Conference Conference

International convention broader

Event Event

Location Location Community Community

First UNFCC Conference, Berlin 3/28/1995 - 4/7/1995

climate convention

Nation Nation

Berlin

Deutschland

situated in

where what

occurrences http://unfccc.int/cop5/resource/docs/cop1/07.htm http://unfccc.int/cop5/resource/docs/cop1/07a01.htm

Abbildung 9 First UNFCC Conference

SNS bietet in seiner eigenen Web-Oberfläche (die von gein® unabhängig existiert) für jedes Topic eine textuelle (Abbildung 10) und eine graphische (Abbildung 11) Darstellung. Während die textuelle Sicht selbsterklärend scheint, bedarf die graphisch interaktive einer kurzen Erläuterung.

[email protected]

10

Technologie Workshop, 21. April 2004

SNS

Abbildung 10 SNS-menschenlesbar11

Die Graphik zeigt das gewählte Topic in der Mitte, umgeben von seinen Relationen, hier in einer Tiefe von 2, also auch die "Relationen der Relationen". Die Tiefe ist wählbar. Auf den ersten Blick fällt die unübersichtliche Häufung rechts unten auf – dies sind die weiteren Relationen von Berlin, größtenteils Lagebeziehungen zu anderen Orten. Zunächst sieht man die Ungleichheit der Netzdichte – dies ist für eine Wortgutredaktion bedeutsam und hilfreich, für den Anwender eher störend. Man kann nun entweder Relationstypen (hier: Lagebeziehungen) ausblenden, oder aber Berlin durch einen Klick zum Mittelpunkt machen, wodurch sich die Übersichtlichkeit deutlich verbessert.

11

http://www.semantic-network.de/displayTopic.html?tid=calendarEvent_94&lang=de

[email protected]

11

Technologie Workshop, 21. April 2004

SNS

Abbildung 11 SNS graphisch-interaktiv

Diese Darstellung ist noch ein wenig experimentell, lädt aber zum "Herumstöbern" ein, woraus vielleicht einmal entwickeltere Anwendungsfälle entstehen können. Derzeit benötigt man eine Browser plug-in für Scalable Vector Graphics [SVG http://www.w3.org/Graphics/SVG/ ] (z.B. von Adobe).

[email protected]

12

Technologie Workshop, 21. April 2004

SNS

3 SNS und Öffentliche Umweltinformation im Web Eine isolierte Darstellung eines Thesaurus oder einer Topic Map erinnert immer ein wenig an ein digitales Lexikon oder Glossar mit vielen Querverweisen. Das ist zweifellos von Wert, tritt aber hinter der Tagesarbeit meist in den Hintergrund. Von erfahrenen Fachleuten wird es kaum noch benutzt, da sie die Begrifflichkeiten inzwischen kennen. Ein solches Glossar betreibt z.B. die EEA12. Eine Demonstration der Möglichkeiten von Topic Maps in dieser Hinsicht ist die Italian Opera Topic Map13 des norwegischen Spezialisten Ontopia. SNS kann in gewissen Grenzen wie ein Lexikon benutzt werden, sei es direkt14 oder im Recherche Assistenten von gein®. Die Grenzen sind vor allem inhaltlicher Art, denn es sind nur in wenigen Fällen Definitionen, Erläuterungen oder externe Links vorhanden. Eine Ausnahme ist hier der vom Projekt selbst gepflegte Umweltkalender (vgl. Abbildung 10). Es war allerdings nie eine erklärte Aufgabe von gein® oder SNS, ein öffentliches Umweltlexikon ins Netz zu stellen, dazu müsste vor allem redaktioneller Aufwand getrieben werden. Vielmehr diente der Thesauruseinsatz in GEIN 2000 in erster Linie als "stilles" Werkzeug zur Informationserschließung, es wurden sogar Vorschläge diskutiert, die Thesaurusbegriffe dem Anwender gar nicht zu zeigen, sondern sie einfach stillschweigend in die Suche einzubeziehen. In einem allgemeinen Sinne kann man sagen, die Thesauri sollen helfen, das Rauschen der Information (insbesondere der Trefferliste) zu reduzieren.

3.1 Das Rauschen von Information In der Kommunikationstheorie bezeichnet man die Einmischung von "störenden" Signalen als "Rauschen" (Abbildung 12).

Abbildung 12 Rauschen in der Kommunikation (nach [Shannon 1948])

Das Rauschen stört die Übermittlung von Information vom Sender zum Empfänger (Anwender zum Anbieter, und umgekehrt). GEIN 2000 hat bereits einen ersten wesentlichen Schritt gegen das Rauschen realisiert, indem es den Informationsraum auf ausgewählte Anbieter eingrenzte. Dies löschte das Rauschen durch zufällige Einmischung von Informationsquellen, wie sie in allgemeinen Suchmaschinen üblich ist, vollkommen aus.

12

http://glossary.eea.eu.int/EEAGlossary/

13

http://www.ontopia.net/operamap/index.jsp

14

http://www.semantic-network.de/topicIndex.html?lang=de

[email protected]

13

Technologie Workshop, 21. April 2004

SNS

Eine andere Form von Rauschen entsteht durch die sich nur teilweise überlappenden Repertoires von Sender und Empfänger. Das Repertoire, oder der jeweils verfügbare "Code", betrifft hier vor allem den unterschiedlichen Wortschatz, da die technische Kodierung über HTML praktisch ohne Rauschen erfolgen kann. Die Thesauri von GEIN 2000 und heute SNS sollten und sollen vor allem die Überdeckung der Repertoires von Sender und Empfänger verbessern helfen. Dies ist zwar auch durch lexikalische Darstellungen möglich, die dem Empfänger die Terminologie des Senders verdeutlichen, wesentlich direkter wirken aber die Analyse der "natürlichsprachigen" Formulierung des Senders (hier: Anwenders) und deren Abbildung auf die Fachsprache des Empfängers (hier: Anbieters), wie sie in der automatischen Indexierung (Kap. 4) implementiert sind.

Abbildung 13 The noise of "water" – das Rauschen von "Wasser"

Eine besonders häufige Form des Rauschens resultiert aus einer zu allgemeinen Wortwahl (Abbildung 13). Natürlich kennen Sender und Empfänger jeweils einen Begriff "Wasser", die Kodierung ist jedoch beliebig unterschiedlich. Während der Empfänger möglicherweise die Trink- oder Badewasserqualität im Sinn hat, kann ein Amt für Gewässerschutz gleich seine komplette Informationsmenge unter diesem Begriff ablegen – entsprechend würde die Trefferliste aussehen. Schon der frühe UmThes® markierte derart allgemeine Begriffe mit dem Zusatz "benutze Unterbegriffe" und vernetzte die Unterbegriffe mit gebräuchlichen Synonymen. Die Suche nach "Wasser" als abgetrenntes Teilwort ergibt heute in SNS 395 Topics. Den ungetrennten Wortbestandteil "…wasser…" enthalten weitere 1014 Begriffe. Mit einer näheren Eingrenzung des Suchinteresses in diesem Begriffsraum kann das semantische Rauschen drastisch reduziert, wenn vielleicht auch noch immer nicht ganz ausgelöscht werden. Eine angemessene Anwendung ist auch heute noch im Recherche Assistenten von gein® nur sehr rudimentär implementiert. Zum Beispiel fehlt in der Trefferliste ein entsprechender Funktionsaufruf mit der Beschriftung: "Zu viele Treffer? Suchbegriffe verfeinern", der in eine entsprechend spezialisierte Dialogführung verzweigt. Mit etwas Erfahrung kann man den heutigen Assistenten auf diese Weise nutzen, auf die Idee muss der Anwender jedoch erst [email protected]

14

Technologie Workshop, 21. April 2004

SNS

einmal kommen, und die Anzeige der Begriffsnetze im Assistenten lässt sich nicht auf Unterbegriffe filtern.

3.2 gein® Index gein® unterhält bekanntlich neben dem Volltext-Index der Suchmaschine einen zweiten Index (Abbildung 14), der Dokumenteninhalte durch Topics beschreibt [vgl. auch Bandholtz 2004b zum G2K Profil]. description topic

topic-ID term rank

URL source description description

date

description area area-ID name rank

time

Topic Topic Event Event

at

Location Location

Accident Accident

from

event-ID

to

Community Community Tschernobyl 1986-04-26

Tschernobyl

Nation Nation

Term Term Reaktor Kernreaktor

Ukraine

ISO 8601 Date and Time Formats z.B.: „2001-07“ oder „2001-07-03T10:30:00+1:00“

Abbildung 14 SNS und der gein® Index

Dies ist nicht zu verwechseln mit einem "Katalog", wie etwa in den Themenseiten von gein®. Es werden hier nicht zu jedem Topic charakteristische Dokumente aufgeführt, sondern umgekehrt: zu jedem Dokument charakteristische ("signifikante") Topics. Zunächst ist die Zahl der signifikanten Topics für jedes Dokument beliebig. Manche Dokumente behandeln ein einziges spezielles Thema gründlich, andere gehen auf Vieles ein. Um zu vermeiden, dass durch eine möglichst große Zahl von Topics einseitige Vorteile bei der Platzierung in Trefferlisten entsteht, wurde eine so genannte "Normalisierung der Signifikanzparameter über das gesamte Angebot" [GEIN 2000r] eingeführt: "Für jedes Dokument [gemeint ist: für jede der Kategorien Raum und Zeit, der Verf.] können maximal 15 Gewichtungspunkte verwendet werden, welche in freier Weise auf max. 15 Schlagworte zu verteilen sind. Gültige Anwendungen wären z.B.: 

Ein einziges Schlagwort mit dem Wert 15.



Fünfzehn Schlagworte, von denen jedes den Wert 1 erhält.



Drei Schlagworte mit dem Wert 5.



Jede andere Kombination mit dem Gesamtwert 15.

Damit steht es dem Anbieter frei, Dokumente eher enger oder aber vielseitiger zu verschlagworten, und dabei die Rangfolge steiler oder flacher einzusetzen." [ebd.] [email protected]

15

Technologie Workshop, 21. April 2004

SNS

Auf die Zahl 15 war man gekommen, weil sie genau auf fünf Schlagworte mit absteigender Signifikanz (5+4+3+2+1=15) passt. In SNS ist das Prinzip beibehalten, es werden jetzt aber der feineren Auflösung wegen Gleitkommazahlen verwendet. Damit fiel auch die starre Obergrenze von 15 Topics, im Prinzip sind jetzt auch 150 Topics pro Dokument mit einem durchschnittlichen Signifikanzwert von 0,1 konform. Implementiert ist heute, dass die Summe der Signifikanzwerte aller Topics (Thema+Raum+Zeit) eines Dokuments maximal 15 Punkte betragen darf. Mit diesem Verfahren wird die Benachteiligung mono-thematischer Information ausgeglichen, da auch das Ranking der Trefferliste darauf eingeht. Ein Dokument mit 15 Topics hat zwar immer noch 15 Chancen, gefunden zu werden, aber jeder Fund bedeutet nur ein 15tel des möglichen Gewichts in der Trefferliste. Dieses Dokument kommt nur dann nach vorn, wenn es mehrere Suchbegriffe gleichzeitig beantwortet. Ein mono-thematisches Dokument landet dagegen von selbst weit vorne, wenn nur mit diesem einzigen Begriff gesucht wurde.

addressable information object aka. “document” or “resource”

Topic space (domain ontology)

 Abbildung 15 Topics zwischen Dokument und Fragestellung

Abbildung 15 verweist auf die Gleichbehandlung von Dokument15 und Fragestellung. Beide werden auf eine signifikante Menge von Topics abgebildet. Stimmen die beiden Mengen weitgehend überein, so war die Suche erfolgreich. Unten im Bild ist eine Szene aus dem Recherche-Assistenten zu sehen. Die Oberfläche des Verschlagwortungs-Assistenten ist nahezu identisch.

Die Bezeichnung "addressable information object" stammt aus dem Topic Map Standard und ist wesentlich genauer als die Metapher "Dokument". 15

[email protected]

16

Technologie Workshop, 21. April 2004

SNS

3.3 Assoziative Suche – „bidirektional“ Wenn man so will, wird also auch der Suchtext des Anwenders wie ein Dokument behandelt. Der Suchtext hat allerdings eine sehr kurze Lebensdauer16 und wird nicht dauerhaft indexiert. Es liegt also nahe, auch wirkliche Dokumente (oder Teile daraus) als Suchtext zu behandeln. Allein aus diesem Grund ist das Eingabefeld für den Suchtext auf der gein® Homepage so groß.

Suchtext

Index topic topic topic topic topic topic

topic topic topic topic topic topic

gefundene Dokumente Abbildung 16 Assoziative Recherche

Ein Szenario: ich finde irgendwo im Internet eine Nachrichtenmeldung auf Deutsch oder Englisch, die mich interessiert. Was hat gein® dazu zu sagen? Die Meldung ist schnell über das Clipboard17 in die Sucheingabe einkopiert, per Knopfdruck werden signifikante Topics vorgeschlagen. In der Trefferliste erscheint ein Dokument, welches das Thema noch genauer auf den Punkt bringt. Also jetzt diesen Absatz aus dem Dokument über das Clipboard als Suchtext verwenden, usw. …("drilling down") Auch dieses Szenario ist lediglich, ein wenig hilflos, durch die Worte "Geben Sie Stichwörter oder ganze Sätze ein (z.B. aus der Zwischenablage)" über dem Eingabefeld angedeutet. Wenn man dieses Vorgehen bei Präsentationen live vorführt, stößt man allerdings auf Staunen. Wir haben hier einen weiteren Funktionsbereich von SNS, der dem gein® Anwender bisher nicht angemessen nahe gebracht wird. Zusammengefasst sind folgende Aspekte bedeutsam: 

Suchtext und Dokumente werden auf signifikante Topics zurückgeführt



Ganze Sätze und Dokumente (oder Auszüge) funktionieren als Suchtext



manuelles Bearbeiten der Topic-Vorschläge durch Navigieren in der Topic Map



Intuitive Weiter-Recherche mit den jeweils vorhergehenden Ergebnissen

Betrachtet man aber auch das Dokument als Suchtext, so könnte man bildhaft sagen: 

auch das Dokument sucht seinen Leser!

Es tut dies, indem es seine signifikanten Topics wie Fühler nach dem potentiellen Leser ausstreckt.

siehe aber das (nicht realisierte) Konzept zur "Recherche Dokumentation" in [FK3, S. 41] und [FK4, S.14], sowie "Recherche speichern" in [DVK 2002, S.44]. 16

Tastaturbefehle: Strg+c für Kopieren, mit der Maus ins gein® Eingabefeld klicken und Strg+v drücken. 17

[email protected]

17

Technologie Workshop, 21. April 2004

SNS

4 Automatische Indexierung Die Automatische Indexierung ist bereits mehrfach angesprochen worden. Hier kurz ein Überblick über ihre Entstehung und Motivation, und vor allem über die Methodik. 1998 gab es bereits ein Vorbild in der ULIDAT, wo aus den abstracts und Titeln der Dokumente automatisch Schlagwörter gewonnen wurden. GEIN 2000 griff dies in Form des Verschlagwortungs-Assistenten auf. Er war für eine interaktive Anwendung gedacht, von der lediglich Vorschläge generiert werden sollten, deren Bearbeitung dann dem Informationsanbieter überlassen blieb. Bereits am 19./20.11.1998 stellt der Referent dieses Konzept auf dem Prototyp-Workshop WWW-UDK 4.0 zur Diskussion und thematisierte dabei erstmals eine mögliche gemeinsame Verwendung auch durch den UDK (vgl. unten, Abbildung 22), was in das Fachkonzept [FK 3, S. 46] einging, aber erst jetzt im Grobkonzept UDK/gein® [KUG 2003b] aufgegriffen wird. Am 3.11.1999 ging eine erste Version im Testbetrieb, im Februar 2000 wurde das Modul zur produktiven Verschlagwortung freigegeben. Auf dem Workshop auf Vilm (21.-23. März 2000) wurde jedoch festgestellt, dass erst 32 (von insgesamt ca. 50.000) Webseiten verschlagwortet waren. Dies war der Augenblick, in dem der Assistent zum Automaten wurde. Es wurde beschlossen, dass alle Webseiten vom Assistenten ohne manuelle Eingriffe indexiert werden sollen, um den Index rechtzeitig zur EXPO 2000 aufzubauen. Es wurde den Informationsanbietern freigestellt, anschließend (aber noch vor der EXPO) die Ergebnisse hinzunehmen, ihre Indexierung manuell zu überarbeiten oder aber ganz aus diesem Index herauszunehmen. Im Juni 2000 waren alle Seiten im Index. Die Zahl der manuell nachgearbeiteten Einträge war nur geringfügig gewachsen, die EXPO aber "gewonnen": GEIN 2000 hatte wirklich Inhalte zu bieten (im Herbst 2000 bereits 80.000, heute ca. 300.000 Webseiten, zuzüglich der über die G2K Schnittstelle [G2K 2004] zugänglichen, noch größeren Informationsmenge).

4.1 Allgemeines Verfahren In SNS wurde die Indexierungsmethode (auch "Textanalyse" genannt) vollkommen neu entwickelt. Das Verfahren ist ausführlicher in [SNS 2002, S.26ff] konzipiert und in [SNS 2003b, S.26ff] abschließend beschrieben. Hier nur eine Übersicht (Abbildung 17). Der Funktionsblock A beginnt mit dem lesenden Zugriff auf das Dokument. Es wird zunächst in seine Worte zerlegt, ähnlich wie bei einem Volltextindex18. Dann werden zu jedem Wort des Dokuments Topics gesucht, die eventuell gemeint sein können. Hier wird mit großer Toleranz vorgegangen, um auch die weniger wahrscheinlichen "Kandidaten" nicht voreilig auszuschließen. Block B arbeitet auf diesen Kandidaten, d.h. zu jedem Wort des Dokuments gibt es 0-n Topics, die möglicherweise für das Dokument signifikant sind. Dieser Block prüft die Kandidatenliste insgesamt auf Wahrscheinlichkeit. Hier werden zusammengesetzte Begriffe erkannt, die vielleicht zunächst als zwei Einzelbegriffe missverstanden wurden. Hier werden Mehrdeutigkeiten (Homographe) aufgelöst, und es werden Synonyme durch Deskriptoren ersetzt. Dies alles resultiert in einer reduzierten und berichtigten Menge von Kandidaten, die in der Regel noch einige Restunsicherheiten enthält. . Block C schließlich gewichtet die Relevanz (=Signifikanz für das Dokument) der verbliebenen Kandidaten nach den Kriterien Häufigkeit, Position und Vernetzung innerhalb des Dokuments. Dabei wird die Menge der Kandidaten ein weiteres Mal reduziert, da nur die wahrscheinlich "signifikantesten" Topics in den Index aufgenommen werden. Ihre Signifikanz wird quantifiziert und "normalisiert", wie in Kap. 3.2 bereits ausgeführt wurde. Es gab auch Versuche, nur auf den Volltextindex von der Suchmaschine zuzugreifen anstatt auf die Dokumente selbst. Das beschleunigt das Verfahren ungemein, aber leider sind nicht alle erforderlichen Informationen verfügbar. 18

[email protected]

18

Technologie Workshop, 21. April 2004

SNS

A lese Dokument

C

separiere Stoppworte

Relevanz nach Häufigkeit

beachte Position des Worts

Relevanz nach Position

finde Wort in der topic map

Relevanz nach Vernetzung

Erste „Kandidaten“

bestätigte Kandidaten

Verschlagwortung

B ersetze Synonyme

QS?

erkenne zusammengesetzte Begriffe löse Mehrdeutigkeiten auf

Abbildung 17 Verfahrensschema der Indexierungsmethode

Das Ergebnis unterliegt nun prinzipiell einer Qualitätssicherung. In der Praxis reduziert sich diese auf gelegentliche Beobachtungen von offensichtlichen Irrtümern in den Trefferlisten. Lediglich für die Themenseiten wird die manuelle Kontrolle/Überarbeitung im Assistenten etwas häufiger angewandt. Dies mag auf den ersten Blick schockieren, aber es steht doch für die Realitäten. Das grundsätzlich manuelle Verfahren des UDK war Anfang der 90er Jahre aus der Situation entstanden, dass der UDK selbst auf die zu beschreibenden Objekte nicht lesend zugreifen konnte – es gab noch kein Internet, und der UDK beschränkt sich auch nicht auf öffentlich zugängliche Information. Ein Verschlagwortungsassistent für dieses Szenario war allerdings schon Ende der 80er Jahre (!) in der ULIDAT realisiert, wo er auf den Abstracts und Titeln aufsetzt, die von den Bearbeitern in der Eingabemaske zunächst abgetippt oder neu formuliert werden mussten. Der UDK hat einen beträchtlichen Teil seiner Ressourcen dauerhaft in die Durchsetzung einer dezentralen, manuellen Metadatenerfassung investiert, deren Ergebnisse dennoch typische Schwächen aufweisen, insbesondere hinsichtlich Aktualität und Vergleichbarkeit über die Informationsanbieter hinweg (mangelnde "Homogenität", vgl. [FAW 2003]). GEIN 2000 hat von vorn herein einen anderen Weg eingeschlagen, der erst durch das Internet ermöglicht worden war. Zweifellos sind die automatischen Ergebnisse homogen, denn es wird immer dasselbe Verfahren eingesetzt, und es gibt keine subjektiven Einflüsse einzelner Anbieter, es gibt keine "Erfassungsanleitung", die unterschiedlich aufgefasst werden könnte. Natürlich macht der "dumme" Automat gelegentlich Fehler, über die ein Mensch herzhaft lachen kann. In der Praxis lässt sich damit leben, wogegen eine systematische Qualitätskontrolle bestenfalls in Form laufender Stichproben denkbar wäre – doch wer sollte auch nur dies dauerhaft ausführen? Es erscheint realistischer, den Automaten weiter zu verbessern.

[email protected]

19

Technologie Workshop, 21. April 2004

SNS

4.2 Qualitätsvoraussetzungen Selbstverständlich sind in allen Entwicklungsphasen ausführliche Testfälle untersucht worden. Generell hat sich daraus eine Reihe von Qualitätsvoraussetzungen ergeben. Zum einen gelten solche Voraussetzungen für die zu indexierenden Angebote selbst. Nach dem Motto "garbage in – garbage out" lassen sich ohne weiteres Texte erzeugen, die den Automaten (und den manuellen Verschlagworter) an den Rand der Verzweiflung treiben. Jeder hat schon einmal Texte gelesen, die überhaupt keinen signifikanten Inhalt haben und daher auch nicht auf signifikante Topics zurückgeführt werden können. Glücklicherweise kommt dies in der gein® community nicht vor, oder wenigstens nicht sehr ausgeprägt. Auf jeden Fall können die Informationen selbst kaum vom Broker beeinflusst werden. Ein Versuch, über die Portalseiten (heute Themenseiten) vergleichbare Grundstrukturen in den Websites wenigstens zu fördern, hat wenig Ergebnisse gezeigt. Es gibt zwar inzwischen eine Menge Themenseiten – die dabei in gein® verwendete Inhaltsstruktur hat jedoch kaum "harmonisierend" auf die Informationsanbieter abgefärbt. Offensichtlich ist Derartiges utopisch – Diversität ist ja schließlich auch ein Schutzgut [vgl. G2K 2004]. Es bleiben also nur diejenigen Voraussetzungen, die SNS (oder der gein® Broker) selbst herbeiführen können. Für SNS sind dies etwa die folgenden: 





reichhaltige Wortmorphologie o

ermöglicht das Entdecken von Topics hinter allen erdenklichen Schreibweisen im Dokument. SNS nennt diese Schreibweisen captors (Fänger), mit denen das Vorkommen eines Topics im Dokument aufgespürt werden kann.

o

ist bisher für geographische Namen nicht gegeben, hier aber auch geringer ausgeprägt.

o

in alter und neuer Rechtschreibung

o

aktuelle Fassung enthält bekannte (systematische) Fehler.

ausgeprägte Vernetzung der Begriffe untereinander o

wie das folgende Kapitel zeigt, ist dies die sicherste Grundlage zur automatischen Entscheidung von Mehrdeutigkeiten

o

Vernetzung zwischen Orten und Sachthemen bisher nur rudimentär (über Ereignisse)

o

eine weitergehende Vernetzung ist nur bedingt automatisierbar.

Erfahrungsschatz und Parametrisierbarkeit der Anwendung o

der Algorithmus kann „ohne Ende“ weiter optimiert werden

o

Qualitätskontrolle mit Testfällen allein zeigt nicht alle „Nebenwirkungen“

o

laufende Beobachtung der Ergebnisse erforderlich

o

Anwenderberichte sind wertvoll, aber zu selten

4.3 Homographen und Kontext Hier nun ein Beispiel für die Entscheidung von Mehrdeutigkeiten, die durch Homographe entstehen (eine Zeichenkette kann mehrere Bedeutungen haben, vgl. das Kinderspiel "Teekesselchen"). Das Vorkommen von Homographen ist vor allem durch die Einführung der geographischen Namen zum Problem geworden. Abbildung 18 zeigt die Problematik für die Zeichenkette "Berg". Es gibt einen einzigen Deskriptor, der das Konzept "Berg" bezeichnet, und 44 geographische Namen, in denen "Berg" als Teilwort, also durch Leerzeichen abgetrennt und mit großem B, vorkommt. Würden wir auch das Vorkommen von "…berg…" innerhalb einer geschlossenen Zeichenkette mitbetrachten, sähe die Sache noch hoffnungsloser aus. [email protected]

20

Technologie Workshop, 21. April 2004

SNS

Abbildung 18 Topics mit "Berg" als Namen oder Namensbestandteil

Dies erklärt vielleicht auch die Eigenheit von SNS, bei den Suchbegriffen Groß- und Kleinschreibung zu unterscheiden. Die Motivation dazu war ursprünglich entstanden, als wir Anfang 2000 entdeckten, dass es keine Dokumente gab, die den Fluss "Oder" behandelten. Zu diesem Zeitpunkt wurde noch, wie bei Suchmaschinen verbreitet, Groß- und Kleinschreibung ignoriert. Das Bindewort "oder" stand selbstverständlich in der Stoppwortliste, und daher wurde auch die "Oder" brav ignoriert. Das war ein Moment, in dem wir uns eher wünschten, wir hätten die geographischen Namen niemals angerührt. Ab 2001, in SNS, wollten wir diese Problematik etwas grundsätzlicher in den Griff bekommen. Zunächst dachten wir eher an den grammatischen Kontext, also z.B. o

„auf den Berg“ vs. „nach Berg“

o

„in der Halle“ vs. „in Halle“

Dies geschah um die Zeit der CeBIT, und daher dauerte es nicht lange zu entdecken, dass der Artikel nicht nur vor dem Ortsnamen fehlen darf: o

„in Halle 7“ !

[email protected]

21

Technologie Workshop, 21. April 2004

SNS

Es erschien nach näherer Betrachtung kaum möglich, diese hier nur angedeutete Komplexität in Regeln zu fassen19, die auch noch von einem Computerprogramm interpretiert werden können. Ein schöner Ansatz für ein linguistisches Forschungsvorhaben – aber leider nicht für uns. Abhilfe brachte schließlich eine vollkommen andere Methode, nämlich die Beachtung des semantischen Kontexts. Dies kann recht treffend in die folgende "Weisheit" destilliert werden: Wenn das Dokument von einem Thema handelt, ist es wahrscheinlich, dass es auch von damit verwandten Themen handelt. Dies ist allerdings eine Annahme, die eine gewisse inhaltliche Konsistenz der Dokumente unterstellt, welche nicht immer gegeben sein muss oder aber auch vom Automaten auf Grund seiner "Dummheit" nicht erkannt werden kann. Dennoch rechtfertigten die Ergebnisse in diesem Fall den Aufwand ohne weiteres. Wir betrachteten also für jeden mehrdeutigen Kandidaten die Menge der im Dokument gefunden Assoziationen (oder "Relationen") zu anderen Kandidaten. Dabei können sich natürlich Unsicherheiten hochschaukeln, und daher sind besonders Relationen zu zweifelsfrei erkennbaren Topics hervorzuheben. In der Tabelle wird deutlich, welche Rolle allein schon die (wesentlich leichtere) Erkennung zusammengesetzter Begriffe spielt. Aber auch "Hoher Berg" oder "Langer Berg" sind mehrdeutig. Wir konzentrierten uns auf Dokumente, die nachweislich eines der sechs Vorkommen von "Berg" (ohne Zusammensetzung) behandelten. Auch hier muss der Automat erst einmal ausschließen, dass es sich um eine der 44 Zusammensetzungen handelt. Dies ist jedoch bei geographischen Namen einfach zu lösen – solange eine einheitliche Schreibweise verbreitet ist … Für die ausgesuchten Testfälle [SNS 2003a, S. 32ff] ergaben sich nach einigen Optimierungen tatsächlich sehr gute Ergebnisse, aber zweifellos konnte die Lösung nicht fehlerfrei sein. Was tun, wenn ein Dokument tatsächlich von einem "Berg" im Gebiet der Gemeinde "Berg" handelt. Was, wenn ein Dokument gerade die Mehrdeutigkeit der Gemeindenamen behandelt. Wie verschlagworten wir ein Dokument (eine Suchbedingung, vgl. 3.3), das nur einen einzigen Satz beinhaltet: "Auch Hamburger essen Hamburger"?

4.4 Sonder- und Problemfälle Um sie zu finden, braucht man gar nicht derartig gemeine Sätze zu konstruieren. Es geht ja hier nicht um abstrakte Vollkommenheit, sondern um ein realistisches Verfahren, das mit einigen Restfehlern leben kann. Das Rauschen lässt sich eben nicht ganz eliminieren, aber doch auf ein komfortables Maß reduzieren. Die real beobachteten Problemfälle sind z.B. folgende: 1. Homographen haben gar keine Relationen zu anderen Topics im Dokument o

dann sind sie wahrscheinlich allesamt nicht wirklich signifikant für das Dokument und können ohne weitere Klärung verworfen werden. Dies ist allerdings ein Standpunkt, der auf ein gut ausgebautes semantisches Netz in der Topic Map vertraut.

Ein recht weit gehender Beitrag findet sich heute bei CANOO: http://www.canoo.net/services/OnlineGrammar/InflectionRules/FRegeln-N/FKlassen/Name-Geo21.html 19

[email protected]

22

Technologie Workshop, 21. April 2004

SNS

2. Die möglichen Auflösungen von Homographen haben gleich viele Relationen im Dokument o

Hier könnte man versuchen, auf den grammatischen Kontext zurückzugreifen, was aber nur hilft, wenn man nicht zwischen mehreren Ortsnamen entscheiden muss. Ansonsten geht nichts mehr. SNS hat hier vorerst entschieden, alle Bedeutungen zu indexieren, da ein wenig Rauschen immer noch besser erscheint als gar kein Hinweis. Allerdings "verdünnt" sich dadurch die Signifikanz aller beteiligten Kandidaten, weswegen in manchen Fällen das Homograph schließlich ganz aus dem Index heraus fällt.

3. Homographe sind im Wortgut nicht bekannt (z.B. gemeint ist die Himmelsrichtung „Norden“, die nicht im Thesaurus vorkommt) o

die Maschine erkennt das Problem nicht und verwendet zunächst stets den Ortsnamen. Ist aber eigentlich die Himmelsrichtung gemeint, so sollte die Gemeinde "Norden" keine Relationen im Dokument haben. Damit fällt sie bei der nachfolgenden Signifikanzbetrachtung ohnehin aus der engeren Wahl. Dennoch wurde begonnen, „unbekannte Homographe“ zu sammeln und der Anwendung bekannt zu machen.

4.5 Zwischenruf: Können die es besser als Google? Es gibt immer wieder Momente, in denen man sich fragt, ob nicht eine gut ausgebaute Volltextrecherche, wie z.B. www.google.de, die letztlich überlegene Lösung darstellt, auch wenn sie sich gar nicht erst die Mühe macht, zwischen den Bedeutungen von Homographen zu unterscheiden. Vielleicht spielt dies in der Praxis ja gar keine so große Rolle.

Abbildung 19 Google Ergebnis für "Lebertoxizität von Kupfer bei Säuglingen"

Die Ergebnisse sind äußerst unterschiedlich. Abbildung 19 zeigt ein ausgezeichnetes Ergebnis, das allerdings leicht zu erzielen ist. Die Suchbedingung ist mit "Lebertoxizität von Kupfer bei Säuglingen" vollkommen frei von Mehrdeutigkeit, wenn man einmal davon [email protected]

23

Technologie Workshop, 21. April 2004

SNS

absieht, dass die einzelnen Worte auch in ganz anderen Zusammenhängen vorkommen können. Man sieht aber, dass Google die Zusammenhänge der Begriffe erfolgreich beachtet und sich auch von den Stoppworten "von" und "bei" nicht irritieren lässt. Tatsächlich ist diese Trefferliste absolut rauschfrei. Sie enthält außerdem alle (!) Verweise, die auch von der UBA-Pressemitteilung zitiert werden. Aber suchen Sie doch einmal mit Google nach "Berg"! Der Referent hat im Spätsommer 2003 im Rahmen eines Internet-Marketing Konzepts für die Bundeszentrale für politische Bildung (BPB) die Google-Ergebnisse mit 68 für die BPB signifikanten Suchworten näher untersucht und dabei festgestellt, dass die BPB insgesamt recht gut abschneidet, allerdings dicht gefolgt vom Buchhändler Amazon und ähnlich "optimierten", aber oft weit weniger qualifizierten Anbietern. Dies spricht nun eher für die in gein® vollzogene Eingrenzung ausgewählter Informationsanbieter, aber es hängt auch sehr stark von den Suchwörtern ab. Das verbreitete Suchmaschinen-Spamming [SanBeu 2004], vgl. auch [Glöggler 2003], ist heute nicht mehr zu übersehen. Wenn ein Begriff auch nur zufällig zugleich ein Produktname sein könnte, wird die Trefferliste von eBay-Agenten "zugemüllt", die sich geschickt hinter vermeintlich zutreffenden Titelzeilen verstecken. Stichproben mit Suchwörtern aus dem Umfeld gein® haben z.B. im Dezember 2003 ergeben, dass das Suchwort "Altstoff" eine Internet-Präsenz namens www.altstoff.de ans Tageslicht befördert, die über eBay schrottreife Industrieanlagen versteigert. Das würde man in gein® nicht finden, es ist aber eigentlich auch eine interessante "Umweltinformation". Heute findet man an dieser Adresse nur noch den Hinweis, dass die Adresse selbst zu verkaufen ist. Aber immerhin ist die Adresse immer noch erreichbar: Cool URIs don't change! [BerLee 1998]. Die folgende Tabelle versucht, Vor- und Nachteile von Volltext- und semantischen Verfahren einander gegenüber zu stellen. Natürlich hängt das Ergebnis auch von der Qualität der jeweiligen Ausführung ab. (Die Ressourcen der Googles dieser Welt sind nicht mit denen von SNS oder gein® vergleichbar). Fall Mehrdeutige Suchworte (Homographen oder kontext-abhängig, z.B. "Emission") Anwender kennt Terminologie Anwender kennt Terminologie nicht Aktuelle Schlagworte oder Spezialbegriffe

Volltext Es werden nur Buchstabenfolgen beachtet: Trefferliste enthält alle Bedeutungen. Durch geschickte Wahl eindeutiger Suchworte ist größere Treffergenauigkeit zu erreichen. Wahl geeigneter Suchworte ist recht zufällig ("Glückssache"). Sind sofort nach der Indexierung auffindbar.

Semantik Werden bei der Eingabe der Suchbedingung (und bei der Verschlagwortung) erkannt. bekannte Terminologie kann durch Querbeziehungen erweitert werden. Terminologie wird bekannt gemacht. Erfordern eine Erweiterung des Wortguts.

Abbildung 20 Vergleich zwischen Volltext- und semantischen Verfahren

Es scheint heute, dass die Blütezeit von Google sich einer von Spam (und Microsoft) diktierten Reifezeit unterziehen muss. Wir können gegenüber diesem unerbittlichen Kampf der kommerziellen Giganten nur gespannt sein, wer als nächster "Platzhirsch" den Hype setzen wird. Die semantischen Verfahren entwickeln sich weniger spektakulär, weniger sprunghaft, anscheinend auch langsamer, aber vielleicht "nachhaltiger". [email protected]

24

Technologie Workshop, 21. April 2004

SNS

5 Semantic Web Services GEIN 2000 war schon sehr früh mit XML-Kommunikation über http konfrontiert worden und hat diese bereits Ende 1999 in der G2K Schnittstelle benutzt [vgl. G2K 2004]. Der erste Kontakt mit dieser Technik war jedoch schon früher durch die Datenbank Tamino entstanden, die schon damals über diese Schnittstellentechnik einzubinden war. Inzwischen ist das Verfahren durch SOAP und Web Services [Kazakos 2004] weiter standardisiert, das ändert aber nichts an der Gültigkeit und Funktionsfähigkeit der 1999 implementierten Schnittstellen [vgl. G2K 2004].

Sharing Ontology by Web Services

SNS Web Services

Original picture by webservices.org

Abbildung 21 Interoperabilität durch Web Services [SWDB 2003]

Mit der Entscheidung für Web Services verfolgte das Projekt drei Absichten: 

netzweite Verfügbarkeit der Terminologie als „Dienst“



kein Distributionsaufwand



einfache Versionskontrolle

Die Eignung von Web Services lässt sich charakterisieren als: 

ausreichend standardisiert und implementiert



Plattform-neutral



Open Source und Produkte verfügbar



hohe Akzeptanz - zunehmend verbreitet.

5.1 Frühe Szenarien Schon Ende 1998 entstand die Idee einer Mehrfachnutzung der automatischen Indexierung, insbesondere durch den UDK. Abbildung 22 zeigt ein solches Szenario, wie es auf dem Prototyp-Workshop WWW-UDK 4.0 am 19./20.11.1998 zur Diskussion gestellt wurde und in das Fachkonzept [FK 3, S. 46] einging. Es sollten allerdings noch 5 Jahre vergehen, bis diese Idee konkreter angegangen wurde (vgl. Kap. 6.1). [email protected]

25

Technologie Workshop, 21. April 2004

SNS

Bis jetzt nur eine Idee: info.html

Ein gemeinsamer Verschlagwortungs-Assistent für WWW-Seiten

Durchsucht Seite nach Deskriptoren, Ortsbezeichnungen, Zeitangaben und Dokumenttypen

Sucht und liest den zugehörigen RDF-Datensatz

Sucht und liest den zugehörigen UDK-Datensatz

Untersucht die Konsistenz

Dialog zur manuellen Überarbeitung

RDF

Schreibt RDF und UDK

Abbildung 22 Gemeinsame Nutzung der Indexierung durch GEIN 2000 ("RDF") und UDK [November 1998]

Ein weiterer Hinweis findet sich in einer Folie des GEIN 2000 Workshops von Februar 2000, die dann in das "Kochbuch" [KOCH 2000] eingegangen ist (vgl. dazu [G2K 2004]). Nachstehende Tabellenzeile stammt aus einer "Checkliste" zur Implementierung der G2KSchnittstelle auf Anbieterseite. Um dort die Nutzung der GEIN 2000 "Thesauri" zu ermöglichen, wird quasi das spätere SNS als "Option" des gein® Brokers angeboten. Kontrolliertes Wortgut

ideal: dieselben Thesauri verwenden wie GEIN. real: notfalls allein die Terms verwenden. Option: Semantischer HTTP-Service durch GEIN-Broker

Abbildung 23 Erster Nachweis der Idee zu SNS (aus [KOCH 2000])

Damals löste diese Vision bei den Anbietern keine erkennbare Reaktion aus, daher wurde zunächst nicht in dieser Richtung implementiert. Angedacht war freilich zunächst auch ein sehr schlichtes Verfahren, im Prinzip lediglich eine gezielte Freigabe derselben httpSchnittstelle zur Tamino-Datenbank, die der Broker selbst benutzte.

5.2 Die Services Seit Mitte 2003 bietet SNS drei Services an, mit denen eine externe Anwendung uneingeschränkten (lesenden) Zugriff auf die Topic Map sowie auf Nutzung der automatischen Indexierung erhält. 1. findTopics() sucht nach Topics mit den übergebenen Parametern. Die Rückgabe ist ein Topic Map Fragment, welches die gefundenen Topics enthält, aber noch keine Assoziationen. 2. getPSI() (PSI= „Published Subject Identifier“) übergibt die vollständigen Eigenschaften eines Topics. Assoziierte Topics können in wählbarer Tiefe mit ausgegeben werden (Topic Map Fragment). 3. autoClassify() stellt die automatische Indexierung zur Verfügung. Der zu indexierende Text kann als Konstante (document) oder als Webadresse (url) übergeben werden. Das Ergebnis ist eine gewichtete Liste von signifikanten Topics.

[email protected]

26

Technologie Workshop, 21. April 2004

high quality metadata

indexed documents

domain knowledge base

indexing

post new document

SNS

domain terminology web service

sns

autoclassify

present terms to indexer

return significant topics

finalize metadata

Abbildung 24 SNS Indexing use case [OMG 2003]

Die Abbildung zeigt ein anwendendes System "domain knowledge base" (Mitte), das selbst Metadaten unterhält (z.B. UDK). Der Anwender (links) erstellt diese Metadaten anscheinend im Dialog mit der domain knowledge base, diese verwendet aber ihrerseits den SNS Web Service autoClassify(). Der Anwender kommuniziert ausschließlich mit "seiner" domain knowledge base – Web Services sind reine Maschine-Maschine-Kommunikation ohne irgendwelche Dialoganteile.

5.3 Ready for use Seit Mitte 2003 bietet SNS diese drei Services produktiv an. Abbildung 25 zeigt die EinstiegsWebseite für Interessenten. Diese wurde in Anlehnung an das Beispiel Google20 gestaltet und enthält alle erforderlichen Informationen, um sofort mit der Integration zu beginnen. Das Developer Toolkit ist nicht zwingend erforderlich, man kann auch eigene Schnittstellensoftware auf Basis der SNS-WSDL generieren. Vor der ersten Nutzung der Services muss man einen Zugriffsschlüssel anfordern. Dies dient jedoch lediglich zum Schutz gegen (z.B. kommerziellen) Missbrauch und ermöglicht dem SNS Betreiber eine Zuordnung der tatsächlich Nutzung zu den einzelnen Anwendern. Die weitere Integration der SNS-Methoden in die eigene Anwendung bleibt völlig dem Nutzer überlassen – dieser ist nicht der Endanwender, sondern selbst ein Informationssystem, z.B. UDK. SNS stellt grundlegende Zugriffe und Methoden zur Verfügung, mischt sich aber nicht in die Frage ein, was der Anwender daraus macht.

20

http://www.google.com/apis/ dort auch die Abbildung links

[email protected]

27

Technologie Workshop, 21. April 2004

SNS

gein® nutzt schon heute nur noch die Web Services

www.semantic-network.de Abbildung 25 Zugang zu den produktionsreif implementierten Services seit 2003

Es war das erklärte Ziel des SNS Projektes, diesen Service für gein® bereits zu stellen. Konsequenter weise wurde deshalb 2003 die "alte" Implementierung der Thesauri und der Indexierung von gein® verworfen und durch SNS Web Services ersetzt. Abbildung 26 zeigt das Schema der Nutzung von SNS durch gein®. Die rote, gestrichelte Linie deutet eine optionale, weitergehende Nutzung an, die jedoch in der Praxis verworfen wurde. SNS hatte zu Testzwecken einen eigenen Index eingerichtet, der dem G2K-Index des gein® Brokers entspricht. Dieser Index war nun gegen Abschluss des Projekts weitgehend vollständig mit den neuen Verfahren von SNS aufgebaut. So kam die Idee auf, diesen Index gar nicht auf den Broker zu kopieren, sondern den in SNS lokalisierten Index über die G2K-Schnittstelle zu nutzen wie einen G2K Informationsanbieter.

[email protected]

28

Technologie Workshop, 21. April 2004

SNS

Abbildung 26 Nutzung von SNS durch gein® [SNS 2003]

6 Ausblicke Die neueren Entwicklungen in der Umweltinformatik seit 2001 haben den Ansatz von SNS deutlich bestätigt: 

es besteht Nachfrage nach den angebotenen semantischen Diensten und



die Web Service Technologie ist allgemein akzeptiert.

6.1 Erweiterung des Nutzerkreises SNS wurde zwar aus gein® heraus entwickelt und ist speziell für den Anwendungsfall gein® konzipiert worden, aber doch mit einer Vielzahl potentieller Anwender im Blick. Derzeit sind folgende Anwendungen in Vorbereitung: VV UDK/gein® "gein®" bedeutet heute nicht mehr nur das gein® vor der Verwaltungsvereinbarung, es ist vielmehr von der Koordinierungsstelle als Name für die künftige Zusammenführung von gein® und UDK redefiniert worden. In diesem Beitrag verwende ich "gein®" aber noch in der alten Bedeutung, also getrennt vom UDK. Im Grobkonzept für die Zusammenführung beider Systeme ist der SNS-Einsatz auch für den UDK klar festgeschrieben: [email protected]

29

Technologie Workshop, 21. April 2004

SNS

"Der SNS wird zentral vom Umweltbundesamt betrieben. Er wird zukünftig von gein® einschließlich der Metadatenkomponente UDK genutzt. Vorerst wird davon ausgegangen, dass die Notwendigkeit einer eigenen Thesaurus-Datenhaltung (sowohl Fach- als auch Geothesaurus) für gein® entfällt." [KUG 2003b, S. 19]

Die "Notwendigkeit einer eigenen Thesaurus-Datenhaltung" ist für gein® bereits Mitte 2003 entfallen. Der UDK wird vermutlich 2005 folgen. GeoPortal.Bund www.geomis.bund.de Bereits der erste Prototyp GeoMIS.Bund von 2002 enthielt eine vereinfachte Schnittstelle zu SNS – die Web Services waren jedoch nicht verfügbar. Die Einbindung ins aktuelle Portal soll Ende Mai 2004 fertig gestellt sein. ADV-MIS www.adv-online.de Die Arbeitsgemeinschaft der Vermessungsverwaltungen der Länder hat einen Zugriffsschlüssel erhalten und bereitet den Zugriff auf SNS vor. EUWI www.euwi.net Die Europäische Wasser Initiative plant die Nutzung von SNS in ihrem Communication and Information System (EUWI CIS) welches im August 2004 in Betrieb gehen soll. ECOterm http://ecoinfo.eionet.eu.int

Auf dem ECOinfo Environmental Thesaurus and terminolgy workshop - Geneva April 14th and 15th 2004 – entstand auf Initiative der UNEP eine neue Initiative "ECOterm". Ziele: "Implement Web Services connections to their terminology system that allow the EI Web Service to query the terminology in real-time" und "Provide full compliance with the Terminology Web Services specification".

SNS ist hier prominent vertreten und wird sich (aktiv wie passiv) mit weiteren ähnlichen Systemen vernetzen. Dieses Vorhaben geht u.a. auch auf [Santa Fe 2003] zurück.

6.2 Erweiterung der Topic Map Die inhaltliche Erweiterung der Topic Map ist immer wieder angesprochen worden, zuletzt von der "Machbarkeitsstudie Integrationsschicht Umweltbeobachtung" des UBA (Abschluss Ende April 2004). Es kann sich hierbei um grundsätzlich neue Topic Typen handeln, wie z.B. Akteure (Personen und Organisationen), oder aber um fachliche Verfeinerungen des Thesaurus oder auch um feiner auflösende Geo-"Thesauri" für bestimmte Regionen (Abbildung 27). Eine Alternative zur physischen Erweiterung wäre eine Vernetzung, z.B. mit taxonomischen Diensten aus dem Umfeld von MoReTax21. Da auch der UmThes® einige Spezies verzeichnet, kann von hier aus gut in spezialisierte Dienste verwiesen werden. Heute wäre damit ein Bruch der Protokolle verbunden, denn diese sind nicht einheitlich außer dass es sich überall mehr oder weniger um Web Services handelt. Das könnte sich aber bald ändern (siehe nächstes Kapitel).

21

http://www.bgbm.fu-berlin.de/BioDivInf/Projects/MoreTax/

[email protected]

30

Technologie Workshop, 21. April 2004

Topic

Event

SNS

Location

Thesa.

Actors Actors

region regionaa region b region b

region regioncc

Indicators Indicators Methods Methods

Species Species

„Microthesauri“

Substances Substances

Abbildung 27 Erweiterung durch zusätzliche Topic Typen und Micro-Thesauri

6.3 Erweiterung der Protokolle Heute verwendet SNS für die Kodierung XML Topic Maps, ein Austauschformat, das als normativer Anhang der ISO 13250 (2nd Edition) geregelt ist. Dieses Format ist allerdings außerhalb der Topic Map Welt nicht verbreitet. 2003 wurde in der Semantic Web Activity des W3C die Ontology Web Language (OWL) auf RDF Basis spezifiziert. Es gab bereits erste Ansätze, Topic Maps in OWL zu kommunizieren, neben den spezifischen eigenen Ansätzen von ISO 13250 [Vatant 2004]. Parallel ist von der Europäischen Sektion der Semantic Web Advanced Development (SWAD) Activity das SKOS-Core 1.0 Schema entwickelt worden, eine RDF Repräsentation speziell für Thesauri22. SKOS-Core enthält aber typisierbare Relationen (vgl. die Diskussion der Strukturen in Kapitel 2), eignet sich daher auch grundsätzlich für SNS. Die oben erwähnte ECOTerm Initiative zeigt eine gewisse Tendenz, SKOS-Core zum TerminologieProtokoll ihrer Wahl zu machen, woraufhin SNS sich dem anschließen dürfte. Wenn sich ein solches Format durchsetzt, z.B. auch bei MoReTax, kann künftig der Übergang zwischen verschiedenen Terminologiediensten weitgehend "nahtlos" erfolgen. Diese Fragen werden seit Ende Februar auch in der Semantic Web Best Practices and Deployment Group23 (SWBPD) behandelt, die Inititaiven unterstützen will, die "Ontologie" oder "Vokabular" im Web publizieren. ECOTerm wird mit SWBPD eine Liason eingehen, so dass dann indirekt auch SNS dort vertreten ist. All diese Vorgänge dürften in absehbarer Zeit zu einer hinreichenden Klärung eines generellen Terminologie-Protokolls führen, dass dann von SNS neben dem XTM Format der Topic Map unterstützt werden sollte, um die Integration und auch gerade die Quervernetzung zu erleichtern.

22

http://www.w3.org/2001/sw/Europe/reports/thes

23

http://www.w3.org/2003/12/swa/swbpd-charter

[email protected]

31

Technologie Workshop, 21. April 2004

SNS

Ein weiteres Feld ist die Einbindung terminologischer Dienste in die zunehmend verbreiteten Standards des Open GIS Consortium (OGC) [Müller 2004b] wie z.B.: 

Catalog Service - ISO 19115 MD_Keyword usw.



Vernetzung mit OGC Gazetteer Service



Verwendung als „Observables Registry“ im Sensor Web

Abbildung 28 zeigt als Beispiel einen Verweis auf ein Topic aus einem Catalog Service (nach ISO 19139). Man sieht, dass das keyword hier nicht einfach als Name angegeben wird, sondern als kleine Struktur aus Name, Dienste-URL und Schlüssel. drinking water quality

Abbildung 28 Kodierung von keyword nach ISO 19139

Für eine Anwendung, die dies "liest", liegt es nahe, den Schlüssel an die Dienste-URL anzuhängen und darauf zu hoffen, dass eine verständliche Reaktion erfolgt. Dies ist ein Szenario, das SNS mittelfristig (schon ab 2005?) wird bedienen müssen. SNS hat mit http://www.semantic-network.de/service/xtm/command/getPSI? schon heute eine geeignete Dienste-URL. Allerdings ist noch nicht genauer spezifiziert, welche Reaktion von dem Dienst erwartet wird. Letzteres könnte ein Thema für ECOterm sein, wo man sich unter anderem der European Spatial Data Infrastructure (ESDI) als use case widmen will. Der Referent wird zu diesem Thema auf dem 3. Deutschen Topic Map Kongress am 21.Juni 2004 einen Beitrag unter dem Titel "Die 'Wissenslandkarte' der Landkarte: Topic Maps und OGC Services"24 vorstellen.

24

http://www.zgdv.de/zgdv/Seminar/awf/Aktuell/XMLTM/TMZeitplan/T_Bandholtz

[email protected]

32

Technologie Workshop, 21. April 2004

SNS

7 Timeline 19?? UBA Thesaurus begonnen 1998 GEIN 2000 Vertrag UBA/SEMA, Vorgabe Thema-Raum-Zeit 1999 Entwicklung des Geo-Thesaurus, des Umweltkalenders und des Verschlagwortungsassistenten 2000 „von 70 auf 80.000 in einer Woche“ – EXPO gerettet! 2000 ISO/IEC 13250:2000 "Topic Maps" International Standard 2001 W3C Semantic Web Activity beginnt 2001 UFOPLAN 201 11 612 SNS beginnt 2002 Aufbau und Vernetzung der SNS Topic Map 2002 Automatische Indexierung neu entwickelt 2002 ISO/IEC 13250:2002(E) „Topic Maps“ 2nd Ed. Annex C. XML DTD for Web-oriented Topic Maps (normative) („XTM“) 2002 SNS Web Services in Testphase 2003 W3C Ontology Web Language (OWL) Recommendation 2003 SNS produktiv mit gein® als Anwender 2004 nationale und internationale Aufmerksamkeit

[email protected]

33

Technologie Workshop, 21. April 2004

SNS

8 Abbildungen Abbildung 1 Struktur des UmThes®......................................................................................... 4 Abbildung 2 Relationstypen nach DIN/ISO [aus: WIKI 2004]................................................... 4 Abbildung 3 Thesaurusbegriffe und Geographische Namen zu "Wattenmeer"....................... 5 Abbildung 4 Struktur des Geo-"Thesaurus"..............................................................................6 Abbildung 5 Gebietstypen im Geothesaurus............................................................................ 6 Abbildung 6 Struktur des Umweltkalenders.............................................................................. 7 Abbildung 7 Strukturintegration in der Topic Map.....................................................................8 Abbildung 8 What happened since Chernobyl?........................................................................9 Abbildung 9 First UNFCC Conference....................................................................................10 Abbildung 10 SNS-menschenlesbar....................................................................................... 11 Abbildung 11 SNS graphisch-interaktiv.................................................................................. 12 Abbildung 12 Rauschen in der Kommunikation (nach [Shannon 1948])................................ 13 Abbildung 13 The noise of "water" – das Rauschen von "Wasser"........................................14 Abbildung 14 SNS und der gein® Index................................................................................ 15 Abbildung 15 Topics zwischen Dokument und Fragestellung................................................ 16 Abbildung 16 Assoziative Recherche..................................................................................... 17 Abbildung 17 Verfahrensschema der Indexierungsmethode..................................................19 Abbildung 18 Topics mit "Berg" als Namen oder Namensbestandteil ...................................21 Abbildung 19 Google Ergebnis für "Lebertoxizität von Kupfer bei Säuglingen"..................... 23 Abbildung 20 Vergleich zwischen Volltext- und semantischen Verfahren.............................. 24 Abbildung 21 Interoperabilität durch Web Services [SWDB 2003].........................................25 Abbildung 22 Gemeinsame Nutzung der Indexierung durch GEIN 2000 ("RDF") und UDK [November 1998].................................................................................................................... 26 Abbildung 23 Erster Nachweis der Idee zu SNS (aus [KOCH 2000]).................................... 26 Abbildung 24 SNS Indexing use case [OMG 2003]................................................................27 Abbildung 25 Zugang zu den produktionsreif implementierten Services seit 2003................28 Abbildung 26 Nutzung von SNS durch gein® [SNS 2003]..................................................... 29 Abbildung 27 Erweiterung durch zusätzliche Topic Typen und Micro-Thesauri..................... 31 Abbildung 28 Kodierung von keyword nach ISO 19139......................................................... 32

[email protected]

34

Technologie Workshop, 21. April 2004

SNS

9 Quellen Einige weitere Quellen zu speziellen Aspekten sind im Text als Fußnoten angegeben. BerLee

1998

DKV FAW

2002 2003

FK3

1999

FK4

1999

G2K

2004

GEIN

2001

GEIN

2000r

Glöggler ISO1325 0 Kazakos

2003 2002

KOCH

2000

KTWeb

2003

KUG

http://www.y12.doe.gov/sgml/sc34/document/0322_files/iso13250-2nd-ed-v2.pdf

2004

OGC

2003 b 2004 a 2004 b 2002

OMG

2003

Müller Müller

RDF

Tim Berners-Lee, Hypertext Style: Cool URIs don't change. http://www.w3.org/Provider/Style/URI DV Konzept GEIN 2002. Version 1.1 vom 21.08.2002 FAW Ulm: Gutachten zur Homogenität der Datenbestände der Vereinbarungspartner im Umweltdatenkatalog (UDK). April 2003 GEIN 2000 Fachkonzept Teil 3: GEIN 2000 als Internet-Anwendung. Version 1.2 vom 02.11.1999. http://www.gein.de/2000/g2k-fk3.zip GEIN 2000 Fachkonzept Teil 4: Navigations- und Funktionsmodell. Version 1.2 vom 02.11.1999. http://www.gein.de/2000/g2k-fk4.zip Bandholtz, Die G2K-Schnittstelle. UDK/gein® Technologie Workshop. Düsseldorf 21.4.2004 Abschlußbericht GEIN 2000 vom 31.5.2001 http://www.gein.de/downloads/Abschlussbericht-07.06.2001.zip Ranking-Verfahren in GEIN 2000 (Arbeitspapier). Version 2.0 vom 2. Dezember 1999. http://www.gein.de/pilot02/ranking02.htm Suchmaschinen im Internet. Springer 2003 ISO/IEC 13250 Topic Maps. Second Edition 19 May 2002.

---

SanBeu

2004

SantaFe

2003

W. Kazakos, XML. UDK/gein® Technologie Workshop. Düsseldorf 21.4.2004 GEIN 2000 Kochbuch für Informationsanbieter. 6.3.2000 http://www.gein.de/2000/kochbuch.htm Bandholtz, Five Years of the German Environmental Information Network (gein®). Knowledge Technology Case Study. KTweb, September 2003 http://www.ktweb.org/doc/CaseStudy-Bandholtz-GEIN.pdf Koordinierungsstelle UDK/gein®, Grobkonzept zur Zusammenführung von UDK und gein®. Version 1.2 10.10.2003 M. Müller, ISO Standards 19115, 19119, 19139. UDK/gein® Technologie Workshop. Düsseldorf 21.4.2004 M. Müller, OGC Standards. UDK/gein® Technologie Workshop. Düsseldorf 21.4.2004 Rob Atkinson, Jens Fitzke OGC Gazetteer Service Profile of the Web Feature Service Implementation Specification Version: 0.9 (OGC 02-076r3). 2002-09-20 www.opengis.org/docs/02-076r3.pdf Bandholtz, Jackson, Semantic Network Services - Sharing Ontology by Web Services. Web Services for the Integrated Enterprise. OMG’s 2nd Workshop On Web Services. Modelling, Architectures, Infrastructures And Standards. February 10-13, 2003. München, Germany. http://www.omg.org/news/meetings/workshops/webservices2003europe.ht m Resource Description Framework (RDF). W3C Semantic Web Activity. http://www.w3.org/RDF/ W. Sander-Beuermann, Internet Suchmaschinen. UDK/gein® Technologie Workshop. Düsseldorf 21.4.2004 ISO/IEC JTC1 SC32 WG2 (Metadata) Working Group, Open Forum on Metadata Registries. January 20-24, 2003 in Santa Fe, New Mexico, USA, http://metadata-stds.org/OpenForum2003/ mit Beiträgen von Bandholtz*, Jensen, Kazakos und Kruse * http://www.bandholtz.info/publications/2003-SC32-WG2-OF-TB.pdf

[email protected]

35

Technologie Workshop, 21. April 2004

Shannon

1948

SNS

2002

SNS SWDB

2003 a 2003

Vatant

2004

WIKI

2004

WSM

2002

XMLE

2002

SNS

Shannon, Claude E.: “A mathematical theory of communication”, in: Bell System Technical Journal 27 (1948), S. 379-423, 623-656; Nachdruck in: C. E. Shannon, W. Weaver: The mathematical theory of Communication, Urbana 1949. SNS Feinspezifikation. 21.08.2002 (als Band 2 von SNS 2003a) http://www.semantic-network.de/sns-AB-Feinspez10-a.pdf SNS Abschlussbericht, Band 1. 28.05.2003 http://www.semantic-network.de/sns-AB-2003-06-06.pdf Bandholtz, Sharing Ontology by Web Services: Implementation of a Semantic Network Service (SNS) in the context of the German Environmental Information Network (gein®). First International Workshop on Semantic Web and Databases (http://swdb.semanticweb.org) (Colocated with VLDB 2003) Humboldt-University Berlin, Germany, September 7-8, 2003 http://www.bandholtz.info/publications/2003-SWDB-TB.pdf Bernard Vatant: Ontology-Driven Topic Maps. XML Europe Amsterdam, April 2004. http://www.idealliance.org/europe/04/call/xmlpapers/03-03-03.91/.03-03-03.html

Wikipedia, die freie Enzyklopädie, Thesaurus (19.4.2004) http://de.wikipedia.org/wiki/Thesaurus Bandholtz, Taxonomie und Topic Maps. Vom Stichwortverzeichnis zur Wissensnavigation. In: XML & Web Services Magazin, Heft 2, 2002. http://www.xml-magazin.de/itr/online_artikel/psecom,id,331,nodeid,69.html Bandholtz, A Taxi in Knowledge Land. XMLeurope 2002, Barcelona. http://www.bandholtz.info/publications/2002-XMLE-TB.pdf

[email protected]

36