Retrieval und Ranking von Dokumenten

Haenelt, Retrieval und Ranking von Dokumenten Retrieval und Ranking von Dokumenten. Ein Übungsbeispiel Kursskript Karin Haenelt, 05.02.2008, 05.11....
1 downloads 1 Views 104KB Size
Haenelt, Retrieval und Ranking von Dokumenten

Retrieval und Ranking von Dokumenten. Ein Übungsbeispiel

Kursskript

Karin Haenelt, 05.02.2008, 05.11.2006; 12.12.2001 (05.11.2002)

1

Vorbemerkung

An Hand eines kleinen Beispielcorpus wird das Retrieval und das Ranking von Dokumenten nach dem Booleschen Modell, nach dem Vektormodell und nach dem probabilistischen Modell vorgestellt. Es werden die einzelnen Berechnungsschritte gezeigt. Darüber hinaus werden die Ergebnisse der einzelnen Verfahren linguistisch bewertet. Es ist zu beachten, dass alle Verfahren für große Datenmengen angelegt sind. Im Beispiel wird dagegen ein Mini-Corpus verwendet. Dadurch ergeben sich Probleme mit zu geringen Datenmengen und –Werten und mit der Repräsentativität des Corpus. Es lassen sich jedoch im Vergleich der Verfahren Eigenschaften beobachten, die symptomatisch für die Verfahren sind und auch bei größeren Corpora auftreten. Dies wird an Hand der Beispiele erörtert.

2

Texte

Als Beispiel werden folgende Texte aus den dpa-spotnews (http://dpa.azm.zet.net/spotnews/) gewählt: 03.08.2001 09:48 MEZ

1) Weiter Stabilisierung an der Weichsel Warschau (dpa) - An den Hochwassergebieten entlang der Deichsel hat sich die Lage weiter beruhigt. In Ostpolen ist der Wasserstand teilweise bereits unter den Alarmpegel gesunken, berichtet der polnische Rundfunk. Die Flutwelle der Weichsel zieht nun durch Pommern Richtung Ostsee. Unterdessen steigt der Wasserstand der Oder in Westpolen weiter an. Im Glogow wurde der Alarmpegel mittlerweile um 124 Zentimeter überschritten. In Dutzenden von Ortschaften stehen Straßen und Ackerland unter Wasser. 02.08.2001 15:07 MEZ 2) Russische Behörden melden Cholera-Erkrankungen im Wolga-Gebiet Moskau (dpa) - Im russischen Wolgagebiet sind fast 50 Menschen an Cholera erkrankt. Die Opfer, unter ihnen 26 Kinder, hätten in einem mit den lebensgefährlichen Viren verseuchten Gewässer gebadet. Das teilte die Gesundheitsbehörde der Stadt Kasan mit. Nach vorläufigen Angaben gab es keine Todesopfer. Angehörige der Opfer seien vorsorglich in Quarantänestationen gebracht worden, meldete die Agentur Interfax. Zudem werden BahnReisende aus Kasan auf Cholera- Symptome untersucht, berichtete ein Radiosender. 1

Haenelt, Retrieval und Ranking von Dokumenten

02.08.2001 14:57 MEZ

3) «Feuerpause» am Ätna Catania (dpa) - Der sizilianische Vulkan Ätna hat eine «Feuerpause» eingelegt. «Er brummt, als würde er schnarchen», beschrieb ein Fernsehreporter das Szenario. Im Touristenzentrum Sapienza knallten die Sektkorken. Ein Betreiber sagte, das Zentrum werde im September wieder geöffnet. Nach Tagen des Bangens war eine Lavafront nur 200 Meter vor der Station mit Seilbahn, Souvenirläden und Büros zum Stillstand gekommen. Der größte Vulkan Europas tobt seit mehr als zwei Wochen. Menschen kamen bislang nicht zu Schaden. 02.08.2001 09:46 MEZ

4) Ätna auf Sizilien speit Wasser Catania (dpa) - Der Vulkan Ätna auf Sizilien speit auch Wasser. Ein solches Phänomen ist laut italienischen Fernsehberichten seit 15 000 Jahren nicht mehr vorgekommen. Forscher erklären das Ereignis damit, dass in einer Lavaflut das Mineral Amphibol vorkommt. Dieses enthalte Wasser in seiner kristallinen Struktur und erwärme sich, sobald das Magma Gas absondern könne. Unterdessen scheint gut zwei Wochen nach dem Ausbruch des Vulkans die größte Gefahr gebannt. Trotz spektakulärer Lavafluten kamen bislang Menschen nicht zu Schaden. 02.08.2001 09:23 MEZ

5) Weiterer Deichabschnitt gesprengt Warschau (dpa) - Im Osten Polens haben Pioniere der Armee einen weiteren Deichabschnitt gesprengt. Damit soll ein rascher Abfluss des Hochwassers ermöglicht werden. Außerdem kommen heute auch Hubschrauber zum Einsatz. Sie sollen Betonplatten auf den Deich werfen, um Risse zu schaffen und den Abfluss des Wassers zu beschleunigen, meldet die Agentur IAR. Bereits gestern war eine 50 Meter breite Lücke in den so genannten Sommerdeich der Weichsel südlich von Kazimierz Dolny gesprengt worden. 01.08.2001 08:29 MEZ

6) Millionen-Schaden durch Feuer in Wyoming Jackson (dpa) - Das vor 10 Tagen ausgebrochene Buschfeuer nahe Jackson im USBundesstaat Wyoming ist weitgehend unter Kontrolle. Bei kühlerem, regnerischem Wetter gelang es der Feuerwehr, den Brand einzudämmen. Das Feuer, das vermutlich durch menschliches Verschulden auf einem Campingplatz entstand, vernichtete 1800 Hektar Land. Menschen kamen nicht zu Schaden. Im benachbarten Yellowstone National Park sind weiterhin mehr als 60 Feuerwehrleute im Einsatz. Dort hat ein Feuer rund 400 Hektar Wald verbrannt. 01.08.2001 08:01 MEZ

7) Angriff von Computerwurm «Code Red» offenbar abgewehrt Washington (dpa) - Der Angriff des weltweit mit Sorge erwarteten Computerwurms «Code Red» ist offenbar abgewehrt worden. Nach ersten Angaben des FBI hat er kaum Schaden angerichtet. Es werde aber noch einige Zeit dauern, bis eine genaue Schadensanalyse fertig sei, hieß es. Vermutlich hätten die Schutzmaßnahmen gegen die Attacke gewirkt. Der Angriff hatte nach Berechnungen der Experten um 2 Uhr deutscher Zeit begonnen. Bei seinem ersten Auftauchen Mitte Juli hatte «Code Red» unter anderem die Webseiten des Weißen Hauses angegriffen. 2

Haenelt, Retrieval und Ranking von Dokumenten

01.08.2001 07:31 MEZ

8) Polnische Pioniere beginnen kontrollierten Deichbruch Warschau (dpa) - Polnische Pioniere haben im Osten des Landes mit einem kontrollierten Deichbruch begonnen. Damit soll das Hochwasser der Weichsel in ein unbewohntes Gebiet umgelenkt werden. Die Soldaten begannen am frühen Morgen damit, einen Teil des Deichs der Weichsel abzutragen, berichtet der polnische Rundfunk. Die Gefahr gehe nicht von der Höhe der Flutwelle aus, sondern von der ungewöhnlich langen Verweildauer, sagte ein Feuerwehrsprecher. Das Hochwasser an der Weichsel erstreckt sich mittlerweile über 350 Kilometer. 30.07.2001 09:52 MEZ

9) Immer mehr Deiche in Polen undicht Warschau (dpa) - In den polnischen Hochwassergebieten ist in der Nähe der ostpolnischen Ortschaft Kamien ein weiterer Deich gebrochen. Das berichtet der polnische Rundfunk. Damit sind an Weichsel und San nun schon fünf Deiche geborsten. Allein südlich von Sandomierz steht ein 52 Quadratkilometer großes Gebiet mit vier Dörfern und hunderten Bauernhöfen unter Wasser. An vielen Stellen sind die durchweichten Deiche nach Angaben der Krisenstäbe mittlerweile löchrig und undicht. Bisher wurden rund 12 000 Menschen in Sicherheit gebracht. 27.07.2001 12:49 MEZ

10) Neue Überschwemmungen in Zentralpolen Warschau (dpa) - Mit neuen Überschwemmungen in Zentralpolen und im Südosten ist die Flutwelle des Hochwassers weiter ins Landesinnere vorgedrungen. Die Rettungskräfte sind pausenlos im Einsatz. Uferbefestigungen wurden mit Sandsäcken verstärkt. Die polnische Regierung hofft auf internationale Hilfe. Es habe erste Kontakte mit der Weltbank gegeben, berichtete der Rundfunksender «Radio RMF» unter Berufung auf die Regierung. Die Zahl der Todesopfer stieg inzwischen auf elf. Im Süden stabilisierte sich die Lage dagegen allmählich. 27.07.2001 08:41 MEZ

11) Lage in Südpolen bleibt weiter dramatisch Warschau - Die Lage in den Hochwassergebieten im Süden und Südosten Polens bleibt dramatisch. Bisher hat die Katastrophe 11 Todesopfer gefordert. Tausende Häuser stehen unter Wasser, mehrere hundert Bauernhöfe sind überflutet. Straßen und Brücken wurden durch die Wassermassen der Weichsel und ihrer Zuflüsse zerstört oder schwer beschädigt. Auch an der Oder in Oberschlesien stiegen die Wasserstände wieder.

3

Retrievalaufgabe

Es soll folgende Retrievalaufgabe gelöst werden: Es sollen Hinweise darauf gesucht werden, welche Schäden durch Feuer und Wasser angerichtet werden. Hierzu sollen Dokumente gesucht werden, die einen Schaden benennen. Es sollen an das Corpus Retrievalanfragen nach dem Booleschen Modell, nach dem Vektormodell und nach dem probabilistischen Modell gestellt werden.

3

Haenelt, Retrieval und Ranking von Dokumenten

4

Relevanzbewertung der Dokumente

Vorab werden die Dokumente inhaltlich auf Relevanz geprüft. Dabei wird geprüft, ob in den Dokumenten Schäden explizit benannt werden. Dies führt zu folgendem Ergebnis:

Dokument

relevant benannte Schäden

1) Weiter Stabilisierung an der Weichsel

0|1

Straßen und Ackerland unter Wasser (Schaden impliziert)

2) Russische Behörden melden Cholera

1

3) «Feuerpause» am Ätna

0

4) Ätna auf Sizilien speit Wasser

0

5) Weiterer Deichabschnitt gesprengt

0|1

50 Menschen an Cholera erkrankt

Deichabschnitt gesprengt

6) Millionen-Schaden durch Feuer in Wyoming 1

Millionen-Schaden, 400 Hektar Wald verbrannt

7) Angriff von Computerwurm «Code Red»

0

8) Polnische Pioniere beginnen Deichbruch

0|1

Hochwasser (Schaden impliziert)

9) Immer mehr Deiche in Polen undicht

1

Deich gebrochen, Deich geborsten, Dörfer, Bauernhöfe unter Wasser

10) Neue Überschwemmungen in

1

11 Todesopfer

11) Lage in Südpolen bleibt weiter dramatisch 1

11 Todesopfer

Zentralpolen

5

Dokumentvektoren

Für die Retrievalbeispiele werden als Standardrepräsentationen der Dokumente Vektoren mit Werten für ausgewählte Terme verwendet. Dabei werden als Werte in den unterschiedlichen Verfahren das Vorkommen/Nicht-Vorkommen (Boolesches Modell, probabilistisches Modell), die einfache Termfrequenz (Vektormodell 6.2.1), die normalisierte Termfrequenz, die die Dokumentlänge berücksichtigt (Vektormodell 6.2.2) und die Termgewichtung (Vektormodell 6.2.3) gewählt. 5.1

Grunddaten zur Berechnung

Formeln und Daten: N

Gesamtzahl der Dokumente im System

= 11

ti

Indexterm

Feuer

Opfer

Schaden Wasser

ni

Anzahl der Dokumente, in denen Term ti

3

3

4

vorkommt

4

8

Haenelt, Retrieval und Ranking von Dokumenten freqi,m

Anzahl der Erwähnungen von Term ti in Dokument dm

maxl

maximale Frequenz eines Terms in Dok.

freql,m

dm

fi,m

normalisierte Frequenz von Term ti in Dokumentm

normalisierte Termfrequenz

fi , m =

inverse Dokumentfrequenz

freqi , m max l freql , m

idfi = log

Termgewichtung

N ni

wi , m = fi , m ⋅ log

N ni

Dokument

max. Frequenz eine Terms im Dokument

1) Weiter Stabilisierung an der Weichsel

4 (Wasser)

2) Russische Behörden melden Cholera

3 (Cholera)

3) «Feuerpause» am Ätna

2 (Ätna, Vulkan, Feuerpause)

4) Ätna auf Sizilien speit Wasser

3 (Wasser)

5) Weiterer Deichabschnitt gesprengt

4 (Deichabschnitt / Deich / Sommerdeich)

6) Millionen-Schaden durch Feuer in Wyoming

6 (Feuer)

7) Angriff von Computerwurm «Code Red»

3 (Angriff, Code Red)

8) Polnische Pioniere beginnen Deichbruch

3 (Deichbruch / Deich, Weichsel)

9) Immer mehr Deiche in Polen undicht

4 (Deich)

10) Neue Überschwemmungen in Zentralpolen

2 (Überschwemmungen, Zentralpolen)

11) Lage in Südpolen bleibt weiter dramatisch

4 (Wasser)

5.2

Vektoren mit Angabe der Termfrequenz

Dokument

Feuer

Opfer

Schaden

1) Weiter Stabilisierung an der Weichsel

Wasser 4

2) Russische Behörden melden Cholera

3

3) «Feuerpause» am Ätna

2

4) Ätna auf Sizilien speit Wasser

1 1 1

5) Weiterer Deichabschnitt gesprengt

3 2

6) Millionen-Schaden durch Feuer in Wyoming

5

6

2

Haenelt, Retrieval und Ranking von Dokumenten 7) Angriff von Computerwurm «Code Red»

2

8) Polnische Pioniere beginnen Deichbruch

1

2

9) Immer mehr Deiche in Polen undicht

2

10) Neue Überschwemmungen in Zentralpolen

1

1

11) Lage in Südpolen bleibt weiter dramatisch

1

4

5.3

Vektoren mit Angabe der normalisierten Termfrequenz

Dokument

Feuer

Opfer

Schaden

1) Weiter Stabilisierung an der Weichsel

Wasser 1

2) Russische Behörden melden Cholera

1

3) «Feuerpause» am Ätna

1

0.33 0.5

4) Ätna auf Sizilien speit Wasser

0.33

5) Weiterer Deichabschnitt gesprengt

1 0.5

6) Millionen-Schaden durch Feuer in Wyoming

1

0.33

7) Angriff von Computerwurm «Code Red»

0.66

8) Polnische Pioniere beginnen Deichbruch

0.33

0.66

9) Immer mehr Deiche in Polen undicht

0.5

10) Neue Überschwemmungen in Zentralpolen

0.5

0.5

11) Lage in Südpolen bleibt weiter dramatisch

0.25

1

5.4

Vektoren mit Angabe der Termgewichtung

idfFeuer = log

11 11 11 11 = 0.56 idfOpfer = log = 0.56 idfSchaden = log = 0.44 idfWasser = log = 0.14 3 3 4 8

Dokument

Feuer

Opfer

Schaden

1) Weiter Stabilisierung an der Weichsel

Wasser 0.14

2) Russische Behörden melden Cholera

0.56

3) «Feuerpause» am Ätna

0.56

4) Ätna auf Sizilien speit Wasser

0.0462 0.22 0.1452

5) Weiterer Deichabschnitt gesprengt

0.14 0.07

6) Millionen-Schaden durch Feuer in Wyoming

0.56

7) Angriff von Computerwurm «Code Red»

0.1452 0.2904

8) Polnische Pioniere beginnen Deichbruch

0.1848

6

0.0924

Haenelt, Retrieval und Ranking von Dokumenten 9) Immer mehr Deiche in Polen undicht

0.07

10) Neue Überschwemmungen in Zentralpolen

0.28

0.07

11) Lage in Südpolen bleibt weiter dramatisch

0.14

0.14

6

Retrieval

6.1

Boolesches Modell

Anfrage: (Feuer OR Wasser ) UND (Opfer OR Schaden) Dokument

Feuer

Opfer

Schaden Wasser Rang

1) Weiter Stabilisierung an der Weichsel 2) Russische Behörden melden Cholera

3

3) «Feuerpause» am Ätna

2

1

5) Weiterer Deichabschnitt gesprengt 6

7) Angriff von Computerwurm «Code Red» 8) Polnische Pioniere beginnen Deichbruch

-

1

+

1

4) Ätna auf Sizilien speit Wasser

6) Millionen-Schaden durch Feuer in Wyoming

4

3

+

2

-

2

+

2

-

1

9) Immer mehr Deiche in Polen undicht

2

-

2

-

10) Neue Überschwemmungen in Zentralpolen

1

1

+

11) Lage in Südpolen bleibt weiter dramatisch

1

4

+

6.2

Vektormodell

Es sei folgender Anfragevektor angenommen : Feuer, Opfer, Schaden, Wasser - (1,1,1,1). x

sim(dm, q ) =

∑ w ×w ∑ w × ∑ w i =1

i, m

i, k

x

2

x

2

i =1

i ,m

i =1

i,k

Die Ähnlichkeit zwischen Dokumentvektor und Anfragevektor wird nach dem Cosinus des Winkels zwischen den beiden Vektoren berechnet.

6.2.1

Termfrequenz

Auf der Basis der Dokumentvektoren und des Anfragevektors ergeben sich folgende Ähnlichkeitswerte zwischen den einzelnen Dokumenten und der Anfrage:

7

Haenelt, Retrieval und Ranking von Dokumenten

sim(d 1, q ) =

(0 × 1) + (0 × 1) + (0 × 1) + (4 × 1) 0 + 0 2 + 0 2 + 4 2 × 12 + 12 + 12 + 12 2

(0 × 1) + (3 × 1) + (0 × 1) + (1 × 1)

sim(d 2, q ) =

0 2 + 32 + 0 2 + 12 × 12 + 12 + 12 + 12 (2 × 1) + (0 × 1) + (1 × 1) + (0 × 1)

sim(d 3, q ) =

22 + 02 + 12 + 0 2 × 12 + 12 + 12 + 12 (0 × 1) + (0 × 1) + (1 × 1) + (3 × 1)

sim(d 4, q ) =

0 + 0 2 + 12 + 32 × 12 + 12 + 12 + 12 2

(0 × 1) + (0 × 1) + (0 × 1) + (2 × 1)

sim(d 5, q ) =

0 + 0 2 + 0 2 + 22 × 12 + 12 + 12 + 12 2

(6 × 1) + (0 × 1) + (2 × 1) + (0 × 1)

sim(d 6, q ) =

6 2 + 0 2 + 2 2 + 0 2 × 12 + 12 + 12 + 12 (0 × 1) + (0 × 1) + (2 × 1) + (0 × 1)

sim(d 7, q ) =

sim(d 8, q ) =

0 2 + 0 2 + 2 2 + 0 2 × 12 + 12 + 12 + 12 (1 × 1) + (0 × 1) + (0 × 1) + (2 × 1) 1 + 0 2 + 0 2 + 2 2 × 12 + 12 + 12 + 12

sim(d 9, q ) =

sim(d 10, q ) =

sim(d 11, q ) =

6.2.2

2

(0 × 1) + (0 × 1) + (0 × 1) + (2 × 1) 0 + 0 2 + 0 2 + 2 2 × 12 + 12 + 12 + 12 2

(0 × 1) + (1 × 1) + (0 × 1) + (1 × 1) 02 + 12 + 0 2 + 12 × 12 + 12 + 12 + 12 (0 × 1) + (1 × 1) + (0 × 1) + (4 × 1) 0 + 12 + 0 2 + 4 2 × 12 + 12 + 12 + 12 2

= 0 .5

= 0.6324

= 0.6708

= 0.6324

= 0 .5

= 0.6324

= 0 .5

= 0.67082

= 0 .5

= 0.70710

= 0.60633

Normalisierte Termfrequenz

Auf der Basis der Werte der normalisierten Termfrequenz ergeben sich folgende Ähnlichkeiten:

8

Haenelt, Retrieval und Ranking von Dokumenten

sim(d 1, q ) =

sim(d 2, q ) =

sim(d 3, q ) =

sim(d 4, q ) =

sim(d 5, q ) =

sim(d 6, q ) =

sim(d 7, q ) =

sim(d 8, q ) =

sim(d 9, q ) =

sim(d 10, q ) =

sim(d 11, q ) =

6.2.3

(0 × 1) + (1 × 1) + (0 × 1) + (1 × 1) 0 2 + 02 + 0 2 + 12 × 12 + 12 + 12 + 12

= 0 .5

(0 × 1) + (1 × 1) + (0 × 1) + (0.33 × 1)

= 0.63150

0 2 + 12 + 0 2 + 0.332 × 12 + 12 + 12 + 12 (1 × 1) + (0 × 1) + (0.5 × 1) + (0 × 1) 1 + 0 2 + 0.52 + 0 2 × 12 + 12 + 12 + 12 2

= 0.67082

(0 × 1) + (0 × 1) + (0.33 × 1) + (1 × 1)

= 0.63150

0 + 02 + 0.332 + 12 × 12 + 12 + 12 + 12 2

(0 × 1) + (0 × 1) + (0 × 1) + (0.5 × 1) 0 2 + 0 2 + 0 2 + 0.52 × 12 + 12 + 12 + 12

= 0 .5

(1 × 1) + (0 × 1) + (0 × 1) + (0.33 × 1)

= 0.63150

1 + 0 2 + 0 2 + 0.332 × 12 + 12 + 12 + 12 2

(0 × 1) + (0 × 1) + (0.66 × 1) + (0 × 1) 0 + 0 2 + 0.66 2 + 02 × 12 + 12 + 12 + 12 2

= 0 .5

(0.33 × 1) + (0 × 1) + (0 × 1) + (0.66 × 1) 0.332 + 0 2 + 0 2 + 0.66 2 × 12 + 12 + 12 + 12 (0 × 1) + (0 × 1) + (0 × 1) + (0.5 × 1) 0 2 + 0 2 + 0 2 + 0.52 × 12 + 12 + 12 + 12

= 0 .5

(0 × 1) + (0.5 × 1) + (0 × 1) + (0.5 × 1) 0 + 0.52 + 0 2 + 0.52 × 12 + 12 + 12 + 12 2

(0 × 1) + (0.25 × 1) + (0 × 1) + (1 × 1) 0 + 0.252 + 0 2 + 12 × 12 + 12 + 12 + 12 2

= 0.67082

= 0.70710

= 0.60633

Termgewichtung

Auf der Basis der Termgewichtung ergeben sich folgende Ähnlichkeiten:

9

Haenelt, Retrieval und Ranking von Dokumenten

sim(d 1, q ) =

sim(d 2, q ) =

sim(d 3, q ) =

sim(d 4, q ) =

sim(d 5, q ) =

sim(d 6, q ) =

sim(d 7, q ) =

sim(d 8, q ) =

sim(d 9, q ) =

sim(d 10, q ) =

sim(d 11, q) =

(0 × 1) + (0 × 1) + (0 × 1) + (0.14 × 1) 0 2 + 02 + 0 2 + 0.14 2 × 12 + 12 + 12 + 12

= 0 .5

(0 × 1) + (0.56 × 1) + (0 × 1) + (0.0462 × 1) 0 2 + 0.56 2 + 0 2 + 0.0462 2 × 12 + 12 + 12 + 12 (0.56 × 1) + (0 × 1) + (0.22 × 1) + (0 × 1) 0.56 2 + 0 2 + 0.22 2 + 0 2 × 12 + 12 + 12 + 12

= 0.64820

(0 × 1) + (0 × 1) + (0.1452 × 1) + (0.14 × 1) 0 + 0 2 + 0.1452 2 + 0.142 × 12 + 12 + 12 + 12 2

(0 × 1) + (0 × 1) + (0 × 1) + (0.07 × 1) 0 2 + 0 2 + 0 2 + 0.07 2 × 12 + 12 + 12 + 12

= 0.53941

= 0.70698

= 0 .5

(0.56 × 1) + (0 × 1) + (0 × 1) + (0.1452 × 1) 0.56 2 + 0 2 + 02 + 0.14522 × 12 + 12 + 12 + 12 (0 × 1) + (0 × 1) + (0.2904 × 1) + (0 × 1) 0 + 0 2 + 0.2904 2 + 02 × 12 + 12 + 12 + 12 2

= 0.60948

= 0 .5

(0.1848 × 1) + (0 × 1) + (0.0924 × 1) + (0 × 1) 0.18482 + 02 + 0.09242 + 02 × 12 + 12 + 12 + 12 (0 × 1) + (0 × 1) + (0 × 1) + (0.07 × 1) 0 2 + 0 2 + 0 2 + 0.07 2 × 12 + 12 + 12 + 12

= 0 .5

(0 × 1) + (0.28 × 1) + (0 × 1) + (0.07 × 1) 02 + 0.282 + 0 2 + 0.07 2 × 12 + 12 + 12 + 12 (0 × 1) + (0.14 × 1) + (0 × 1) + (0.14 × 1) 0 + 0.14 2 + 0 2 + 0.142 × 12 + 12 + 12 + 12 2

10

= 0.67082

= 0.60633

= 0.70710

Haenelt, Retrieval und Ranking von Dokumenten 6.2.4

Tabellarische Übersicht der Ergebnisse

Mit den unterschiedlichen Termgewichten ergeben sich nach dem Vektormodell folgende Rangfolgen der Dokumente: Dokument

Rang sim(d,q)

sim(d,q) Frequenz

Rang sim(d,q) Rang

norm.Frequenz

Gewicht

0.50000

5

0.50000

5

0.50000 8

0.63245

3

0.63150

3

0.53941 7

3) «Feuerpause» am Ätna

0.67082

2

0.67082

2

0.64820 4

4) Ätna auf Sizilien speit Wasser

0.63245

3

0.63150

3

0.70698 2

5) Weiterer Deichabschnitt

0.50000

5

0.50000

5

0.50000 8

6) Millionen-Schaden durch Feuer 0.63245

3

0.63150

3

0.60948 5

0.50000

5

0.50000

5

0.50000 8

0.67082

2

0.67082

2

0.67082 3

0.50000

5

0.50000

5

0.50000 8

0.70710

1

0.70710

1

0.60633 6

11) Lage in Südpolen bleibt weiter 0.60633

4

0.60633

4

0.70710 1

1) Weiter Stabilisierung an der Weichsel 2) Russische Behörden melden Cholera

gesprengt

in Wyoming 7) Angriff von Computerwurm «Code Red» 8) Polnische Pioniere beginnen Deichbruch 9) Immer mehr Deiche in Polen undicht 10) Neue Überschwemmungen in Zentralpolen

dramatisch

6.2.5

Graphische Übersicht der Ergebnisse

Normiert auf die Rangfolge 1 bis 5 ergibt sich folgendes Ergebnis

11

Haenelt, Retrieval und Ranking von Dokumenten

0 1

2

3

4

5

6

7

8

9

10

11

-1 -2

Freq normFreq

-3

Gewicht

-4 -5 -6

6.3

Probabilistisches Modell

Die Anwendung des probabilistischen Modells auf das kleine Beispielcorpus ist besonders problematisch: Zur Gewinnung von Wahrscheinlichkeiten, mit denen weitergearbeitet wird, muss das Corpus in ein Trainingscorpus und ein Anwendungscorpus geteilt werden. Hier kommt es nun darauf an, wie homogen Trainingscorpus und Anwendungscorpus sind. Werden im Trainingscorpus andere Themen behandelt und ist das Vokabular unterschiedlich (z.B. ‚Schaden durch Feuer’) so werden im Anwendungscorpus neue Themen nicht gefunden (z.B. ‚Opfer durch Wasser’). Außerdem ergibt sich ein Berechnungsproblem durch zu wenige und zu geringe Werte. Dies wird im folgenden deutlich. 6.3.1

Formeln für das Relevanz-Feedback-Verfahren

rel reli

Anzahl der als relevant beurteilten Dokumente Anzahl der relevanten Dokumente mit Term ti

nrel

Anzahl der nicht-relevanten Dokumente

nreli

Anzahl der nicht-relevanten Dokumente mit Term ti

reli nreli (1 − ) rel nrel log ∑ nreli reli i∈ X |ti∈q ∩ d (1 − ) nrel rel

Formel zur Berechnung der Termstatuswerte Wegen der sehr kleinen Zahlen muss zur Vermeidung undefinierter Brüche mit Korrekturfaktoren gearbeitet werden:

12

Haenelt, Retrieval und Ranking von Dokumenten

reli + 0.5, nreli + 0.5, rel + 1, nrel +1

6.3.2

Ausgewählte Dokumente mit Relevanzangaben

Als Trainingscorpus werden die Dokumente 1 bis 6 ausgewählt und durch Lektüre als relevant oder nicht relevant bestimmt: Dokument

Feuer

Opfer

Schaden Wasser relevant

1) Weiter Stabilisierung an der Weichsel 2) Russische Behörden melden Cholera

3

3) «Feuerpause» am Ätna

2

4

0

1

1

1

4) Ätna auf Sizilien speit Wasser

1

5) Weiterer Deichabschnitt gesprengt 6) Millionen-Schaden durch Feuer in Wyoming 6

0 3

0

2

0

2

1

reli

1

1

1

1

rel = 2

nreli

1

0

2

3

nrel = 4

exp(svi)

2.33

9

1

0.43

6.3.3

Berechnung von exp(sv)

1 + 0 .5 1 + 0 .5 (1 − ) 2 + 1 4 + 1 Feuer = 2.33 1 + 0 .5 1 + 0 .5 (1 − ) 4 +1 2 +1 1 + 0 .5 0 + 0 .5 (1 − ) 4 +1 = 9 Opfer 2 + 1 0 + 0 .5 1 + 0 .5 (1 − ) 4 +1 2 +1 1 + 0 .5 2 + 0 .5 (1 − ) 2 + 1 4 + 1 Schaden =1 2 + 0 .5 1 + 0 .5 (1 − ) 4 +1 2 +1 1 + 0 .5 3 + 0 .5 (1 − ) 4 + 1 = 0.4288 Wasser 2 + 1 3 + 0 .5 0 + 0 .5 (1 − ) 4 +1 1+1

13

Haenelt, Retrieval und Ranking von Dokumenten 6.3.4

Neue Dokumente und ihr Retrievalstatuswert

Dokument

Feuer Opfer Schaden

Wasser RSV

=

7) Angriff von Computerwurm

0

0

1

0

log(1.00)

0

8) Pioniere beginnen Deichbruch

1

0

0

1

log(2.33)

0

+ log(0.43) 9) Deiche in Polen undicht

0

0

0

1

log(0.43)

-0.366

10) Neue Überschwemmungen

0

1

0

1

log(9) +

0.588

log(0.43) 11) Lage in Südpolen dramatisch

0

1

0

1

log(9) +

0.588

log(0.43)

Die Zahlen sind sehr klein. Es zeigt sich jedoch, dass Dokument 9, das kein Äquivalent im Trainingscorpus hatte, hier nicht gefunden wird.

7

Ergebnisse

Insgesamt ergibt sich folgende Relevanzbeurteilung, wenn man für die Berechnung nach dem Vektormodell einen Schwellenwert von 0.6 und für die Berechnung nach dem probabilistischen Modell einen Schwellenwert von 0.0 annimmt: Dokument

Juror

Boole Freq norm. Gewicht probab Pooling Freq

1) Stabilisierung an der Weichsel

0|1

0

0

0

0

0

2) Russ. Behörd. melden Cholera

1

1

1

1

0

0

3) «Feuerpause» am Ätna

0

0

1

1

1

0

4) Ätna auf Sizilien speit Wasser

0

1

1

1

1

5) Deichabschnitt gesprengt

0|1

0

0

0

0

6) Millionen-Schaden durch Feuer

1

1

1

1

1

7) Angriff von Computerwurm

0

0

0

0

0

1

0

8) Pioniere beginnen Deichbruch

0|1

0

1

1

1

1

0

9) Deiche in Polen undicht

1

0

0

0

0

0

0

10) Neue Überschwemmungen

1

1

1

1

1

1

1

11) Lage in Südpolen dramatisch

1

1

1

1

1

1

1

0

Folgendes lässt sich feststellen: 1) Verschiedene Verfahren führen wenigstens teilweise zu unterschiedlichen Ergebnissen

14

Haenelt, Retrieval und Ranking von Dokumenten 2) Die Anwendung auf kleinere Corpora ist problematisch. Bei größeren Dokumentmengen fallen die Unterschiede weniger ins Gewicht. Oft werden für eine Aufgabenstellung nicht vollständige Ergebnisse gebraucht, sondern lediglich einige gute Treffer, mit denen dann in einer bestimmten Situation eine Frage für eine Aufgabe hinreichend beantwortet werden kann. 3) Dokumente 3 und 4, die durch Lektüre als nicht relevant bewertet wurden, werden von den Verfahren, die auf der Ebene uninterpretierter Zeichenketten arbeiten, als relevant beurteilt: Es kommen zwar relevante Terme vor, aber sie sind negiert. Das wird nicht berücksichtigt. 4) Wenn man auf der Basis dieser Ergebnisse einen Pool der guten Treffer bildet, und diesen Pool wie in manchen Evaluierungsverfahren dadurch erzeugt, dass alle Dokumente, die von allen Verfahren als relevant bewertet werden, Elemente des Pools werden, so gelangen hier einerseits Fehltreffer in den Pool (Dokument 4), andererseits bleiben einige relevante Dokumente unberücksichtigt. (Das „Trainingscorpus“ des probabilistischen Verfahrens ist für das Pooling nicht herangezogen worden). 5) Es wurden nur ausgewählte Termini verwendet. Dies entspricht einer Indexierung mit kontrolliertem Vokabular. Eine Verwendung aller Termini ergibt möglicherweise andere Ergebnisse.

8

Programme

Zur Berechnung der Ähnlichkeit von Dokumentvektoren und Anfragevektoren wurde folgendes Programm verwendet: http://kontext.fraunhofer.de/haenelt/kurs/folien/IRVektorBerechnung.html.

Vielen Dank Für das Aufspüren von Fehlern in früheren Fassungen und für Verbesserungsvorschläge danke ich Olena Beck.

15

Suggest Documents