Wyszukiwanie informacji

Agnieszka Nowak

Wg M. A. Kłopotka: W

y

s

z

u

k

i

w

a

n

i

e

i

n

f

o

r

m

a

c

j

i

t

o

p

r

o

c

e

s

w

y

s

z

u

k

i

w

a

n

i

a

w

p

e

w

n

y

m

z

b

i

o

r

z

e



t

y

k

c

w

h

w

e

r

s

e

n

z

y

d

s

z

t

i

e

k

i

t

c

e

h

m

d

o

a

k

t

u

u

o

ż

m

w

y

i

t

e

(

k

n

p

o

r

w

t

z

ó

w

e

n

,

d

i

k

k

m

a

t

i

f

ó

o

a

t

k

r

e

o

p

w

t

y

o

i

ś

)

i

l

i

n

w

i

u

f

b

o

ę

c

z

r

o

a

m

n

e

w

i

a

c

j

s

e

r

e

ą

a

.

w

j

ą

s

n

k

i

a

e

z

z

a

b

n

ę

e

d

m

n

u

e

w

d

l

a



„Inteligentne wyszukiwarki internetowe” AOW W-wa 2001

Kluczowy aspekt wyszukiwania informacji: § Wyszukiwanie informacji oparte jest na zastosowaniu charakterystyk wyszukiwawczych dokumentów. § Charakterystyka wyszukiwawcza dokumentu to sformułowany wg. określonych reguł tekst, w którym został zawarty zasadniczy temat lub przedmiot tego dokumentu i tylko częściowo towarzyszące mu przedmioty lub tematy. § Im krócej sformułowane są charakterystyki wyszukiwawcze, tym większa szybkość wyszukiwania, lecz jednocześnie mniejsza dokładność i kompletność. Najważniejszą operacją jest indeksowanie dokumentów i kwerend. Polega ono na określeniu tematu lub przedmiotu i wyrażeniu go w charakterystyce wyszukiwawczej dokumentu w określonym języku informacyjno-wyszukiwawczym (stosowanym w danym systemie wyszukiwania). Problem polega na tym, iż źle sformułowane pytanie spowoduje wyszukanie dokumentów

odpowiadających

kwerendzie

a

nie

prawdziwym

potrzebom

informacyjnym. Jak się jednak okaże w dalszej części prezentacji powstają i takie nawet systemy. Problem przy ocenie wyszukiwarek internetowych polega na tym, ze z uwagi na powiązania

(linki)

między

dokumentami

nawet

dokumenty,

formalnie

nie

odpowiadające kwerendzie (nie relewantne), mogą okazać się częściowo relewantnymi, jeżeli zawierają linki do stron relewantnych.

Wyszukiwanie informacji

Agnieszka Nowak

Schemat działania systemy wyszukiwawczego

Charakterystyka wyszukiwawcza kwerendy

Baza dokumentów

Indekser kwerendy

Indekser dokumentów Szukanie

Charakterystyki wyszukiwawcze dokumentów

kwerenda

wyniki

Schemat działania systemu wyszukiwawczego

UŜytkownik

Modele wyszukiwania informacji Każda baza danych wyszukiwarki posiada pewne właściwe dla siebie możliwości formułowania zapytań, lecz dla się wyodrębnić kilka najczęściej spotykanych rodzajów wyszukiwania: 1. Wyszukiwania wg słów kluczowych, 2. Wyszukiwanie boolowskie [AND, OR, NOT], 3. Wyszukiwanie koncepcyjne, 4. Szukanie frazy (ciągu wyrazów, pełnych zdań), 5. Szukanie z określeniem odległości słów, 6. Tezaurus, 7. Wyszukiwanie rozmyte, 8. Szukanie podobnych dokumentów informacji specyfikuje: Model wyszukiwania 1. Reprezentację kwerendy, 2. Reprezentację dokumentu, 3. Funkcję wyszukiwania.

Wyszukiwanie informacji

Agnieszka Nowak

Funkcja wyszukiwania określa, jak dobrze dokument odpowiada zapotrzebowaniu użytkownika na informacje oraz w jakiej kolejności prezentować wyniki wyszukiwania informacji. Wyróżnia się zasadniczo następujące modele WI: 1. Model boolowski (logiczny), 2. (statystyczny) model przestrzeni wektorowej, 3. Model oparty na systemach uczących się, 4. Model lingwistyczny (zorientowany na analizę morfologiczną, syntaktyczną, syntaktyczną i semantyczną tekstu).

Optymalizacja stron internetowych Cel: O

r

a

p

n

t

k

y

i

m

n

g

a

a

l

c

i

h

z

a

w

c

j

y

a

s

s

z

t

u

r

k

o

n

i

w

s

a

e

r

r

e

w

k

i

.

s

J

u

m

e

s

s

a

t

t

p

r

n

i

o

e

n

a

r

c

w

d

e

s

o

l

z

i

u

u

y

n

z

m

d

y

s

k

e

k

r

s

a

k

a

o

n

k

c

j

i

i

e

i

m

e

j

a

w

k

p

n

r

a

o

j

c

w

y

e

s

ż

i

s

e

p

z

e

r

j

p

z

y

o

g

z

o

y

t

c

o

w

j

i

a

w

n

i

a

.

Czynniki mające wpływ na rankingi w wyszukiwarkach: 1. Tytuł dokumentu – TITLE 2. Znacznik meta DESCRIPTION 3. Znacznik meta KEYWORDS 4. Projekt strony 5. Tematyka 6. Odnośniki 7. Rodzaj wyszukiwarki 8. Spam Po przeanalizowaniu wszystkich elementów można przystąpić do zgłaszania stron do wyszukiwarek. We wczesnych latach rozwoju Internetu (1994-5) element

O

K

E

Y

W

R

D

był jedyną

informacją, którą wykorzystywały wyszukiwarki w rankingach znalezionych stron. Przy ówczesnych małych bazach indeksów można było szybko i w prosty sposób wybrać słowa kluczowe dla własnych stron. Niestety wykorzystali to spamerzy, co

Wyszukiwanie informacji

Agnieszka Nowak

przyczyniło się do faktu, iż z czasem wyszukiwarki zaczęły przywiązywać coraz mniejszą wagę do elementu

O

K

E

Y

R

D

W

S

, a skupiły się na treści serwisów.

Waga sposobem na ranking dokumentów • Internet to źródło ogromnej liczby dokumentów, • Wszystko zależy od pytania, bowiem to, jak są prezentowane dokumenty zależy od strategii ważenia termów. 1. Statystyczne wagi termów, 2. Statystyczne wagi dokumentów, 3. Metoda Robertsona i Sparcka-Jonesa (1997), 4. Metoda Robertsona (1994), 5. Metoda bazowa B, 6. Metoda linków, 7. PageRank – swego rodzaju statyczna waga strony.

Wyszukiwanie informacji

Agnieszka Nowak

PageRank PageRank jest wartością liczbową, reprezentującą wartościowość strony. Twórcy Google stwierdzili, że odpowiednim współczynnikiem wartościowości strony internerowej jest ilość linków prowadzących do danej strony. Wzór obliczania PageRank dla strony A:

gdzie:

PR( A) = (1 − d ) + d (

PR (t1 ) PR (t n ) + ... + ) C (t1 ) C (t n )

d-współczynnik tłumienia zazwyczaj ustawiony na 0.85 t1..tn - PR stron zawierających linki do naszej strony C(x) - liczba linków wychodzących ze strony x System PageRank można porównać do głosowania na link na stronie A prowadzący do strony B do głosu oddanego przez A na B. Waga głosu zaś jest wartością PageRank dla strony A podzieloną przez liczbę linków wychodzących ze strony. Tak więc im więcej wartościowych stron o jak najmniejszej liczbie linków wychodzących odwołuje się do naszej strony tym większa wartość PageRank naszej strony. Przykład: jeden link ze strony o PR=5 z 10 linkami wychodzącymi przekazuje większą wartość niż 1 link ze strony o PR10 ale ze 100 linkami wychodzącymi.

Nowe trendy... l inna prezentacja wyników: grupowanie, odp, (vivisimo, carrot2), l podpowiedzi (keywords) : teoma, infonetware, aeiwi, l nowe interfejsy użytkownika: google labs.

Przyszłość •

Szukanie odpowiedzi a nie materiałów:



Szukanie celowe a nie referencyjne(System START , system AnswerBus)

Wyróżnić trzeba: 1. systemy wyszukujące dokumenty zawierające postawione pytanie [google, altavista, alltheWeb], 2. systemy odpowiadające na pytania [system START, system AnswerBus], 3. systemy organizujące (grupujące) wyniki [vivisimo, carrot].

Wyszukiwanie informacji

Agnieszka Nowak

Systemy organizujące wyniki [vivisimo, carrot] Systemy te opierają swoje działanie na algorytmach klasyfikacji i grupowania danych, wśród których wyróżnić można:

§ §

hierarchiczne, -optymalizacyjne (nie hierarchiczne). k

Idea algorytmów grupowania: • Na podstawie podobnych cech łączy się obiekty w grupy, • Na czele grupy staje jej reprezentant – centroid, • Grupy traktuje się jak dokumenty i dalej łączy na wyższych poziomach, • Nie jest przeszukiwana cała struktura, • Dzięki strukturze hierarchicznej osiągamy szybszą odpowiedź na zadane pytanie

Koncepcja:

s(x,G1)=0.634

s(x,G2)=0.867

s(x,G3)=0.331

s(x,G21)=0.878 s(x,G22)=0.927 s(x,G23)=0.897

s(x,G22)=0.92

Jakie dwa dokumenty moŜemy uznać za podobne ? •

Miary odległości,



Miary podobieństwa.

Wyszukiwanie informacji

Agnieszka Nowak

Przykładowo dla podanych niżej dwóch wektorów:

X4 : 0 0 0 0 1 0 0 3 X22: 0 0 0 0 1 1 0 3 Obliczamy odpowiednio odległość i podobieństwo: d ( x4 , x22 ) = (0 − 0) 2 + (0 − 0) 2 + (0 − 0) 2 + (0 − 0) 2 + (1 − 1) 2 + (0 − 1) 2 + (0 − 0) 2 + (3 − 3) 2 = 1 = 1

p ( x4 , x22 ) = =

0 ∗ 0 + 0 ∗ 0 + 0 ∗ 0 + 0 ∗ 0 + 1 ∗1 + 0 ∗ 1 + 0 ∗ 0 + 3 ∗ 3 (0 + 0 + 0 2 + 0 2 + 12 + 0 2 + 0 2 + 32 ) * (0 2 + 0 2 + 0 2 + 0 2 + 12 + 12 + 0 2 + 32 ) 2

2

=

1+ 9 10 = = 0.95 10 *11 10.49

Widać, iż podobieństwo zawsze osiąga wartość z przedziału 0 ..1 co powoduje, iż wynik łatwo można zinterpretować, kierując się prostą zależnością, że wartość podobieństwa bliska zeru oznacza brak podobieństwa porównywanych obiektów, i analogicznie wartość bliska jedności oznacza duże podobieństwo. Implementowane w wyszukiwarkach algorytmy grupowania wyników powstają w odpowiedzi na pojawiające się problemy: 1. Większa ilość informacji nie przekłada się na ich jakość, 2. Internet kiedyś był o wiele bardziej wiarygodny, 3. Wyszukiwarki nie ułatwiają dostępu do jakościowo lepszej wiedzy: bo szukają dokumentów pasujących do pytań a nie do odpowiedzi, nie tłumaczą struktury zwracanych wyników.

Istotne aspekty grupowania... GRUPOWANIE WYNIKÓW...gdyż za dużo ich jest...chodzi o wybór tych najbardziej trafnych. Definicja problemu: SEARCH RESULTS CLUSTERING: Polega na efektywnym utworzeniu sensownych grup tematycznie powiązanych dokumentów, oraz, ich zwięzłym opisaniu... w sposób zrozumiały dla człowieka.

Wyszukiwanie informacji

Agnieszka Nowak

Problem nie jest trywialny...bo: • nie jest znana liczba oczekiwanych grup, • miara podobieństwa dokumentów jest trudna do zdefiniowania, • grupy mogą się nakładać, • znalezienie opisu dla grupy nie jest łatwe, • wymagana szybkość działania {on-line}, • dokumenty mogą być wielojęzyczne, • opisy są zazwyczaj krótkie i niepełne.

Modelowanie podobieństwa Modelowanie to wykorzystuje techniki: 1. modelowanie odległości w przestrzeniach n-wymiarowych, 2. model grafowy, 3. współwystępowanie słów i fraz. Tematem niniejszej prezentacji jest skupienie się na pierwszej technice, która pozwala na wykorzystywanie do grupowania różnego typu algorytmów. Tutaj omówiony zostanie algorytm analizy skupień z aglomeracyjnym łączeniem obiektów tworzących w ten sposób pewną strukturę hierarchiczną, stąd nazwa algorytmu: AHC – Agglomerative Hierarchical Clustering. Przebieg grupowania AHC: Przebieg grupowania obiektów w ramach metod aglomeracyjnych odbywa się w następujących krokach: 1. Utwórz

n

klas zawierających pojedyncze obiekty.

2. Oblicz wartość pewniej miary podobieństwa (odległości) dla wszystkich par klas. 3. Połącz dwie klasy najbardziej podobne. 4. Jeśli wszystkie obiekty należą do jednej klasy, to zakończ pracę. W przeciwnym przypadku przejdź do kroku 2.

Wyszukiwanie informacji

Agnieszka Nowak

Algorytm grupowania: 1. Mając macierz

D=[ ij] ( d

i

,

= 1,2,..., )

j

n

wyznaczamy element najmniejszy (szukamy pary skupień najmniej odległych od siebie):

pq = min i,j {dij} (

d

i

,

= 1,2,..., ), < .

j

n

p

q

2. Skupienia p i q łączymy w jedno nowe skupienie, nadając mu numer G

G

p:=

G



p

G

.

q

G

2. Z macierzy D usuwamy wiersz i kolumnę o numerach

oraz podstawiamy

q

:= -1.

n

n

3. Wyznaczamy odległości pj ( =1,2,..., ) utworzonego skupienia p od d

j

n

G

wszystkich pozostałych skupień, stosownie do wybranej metody. Wartości pj d

wstawia się do macierzy D w miejsce -tego wiersza (w miejsce -tej kolumny p

p

wstawiamy elementy jp). d

4. Powtarza się kroki 1-4 aż do momentu, gdy wszystkie obiekty utworzą jedno skupienie (tzn. gdy =1). n

o

k

a

ż

d

e

j

i

t

e

r

a

c

j

i

m

a

m

y

c

o

r

a

z

m

n

i

e

j

g

r

u

p

,

P

c

o

r

a

z

m

n

i

e

j

s

z

ą

m

a

c

i

e

r

z

o

d

l

e

g

ł

o

ś

c

i

.

Graficzna ilustracja grupowania AHC

{o1,o2,o3,o4,o5,o6,o7,o8}

o1

o2

o3

o4

o5

o6

o7

Rys. Przykład dendrogramu

o8

Wyszukiwanie informacji

Agnieszka Nowak

Surowe dane: (przykład) VAR 1

VAR 2

1

1

3

2

1

8

3

5

3

4

1

1

5

2

8

6

5

2

7

2

3

8

4

8

9

7

2

10 5

8

Docelowo:

• duże zbiory dokumentów, • gdzie każdy opisany jest różnym zbiorem deskryptorów, • Dane mogą być różnego typu mogą być różnego typu: ilościowe, jakościowe.

Macierz odległości euklidesowych: P_1 P_2 P_3 P_4 P_5 P_6 P_1 0 5,00 4,00 2,00 5,10 4,12 P_2 5,00 0 6,40 7,00 1,00 7,21 P_3 4,00 6,40 0 4,47 5,83 1,00 P_4 2,00 7,00 4,47 0 7,07 4,12 P_5 5,10 1,00 5,83 7,07 0 6,71 P_6 4,12 7,21 1,00 4,12 6,71 0 P_7 1,00 5,10 3,00 2,24 5,00 3,16 P_8 5,83 3,00 5,10 7,62 2,00 6,08 P_9 6,08 8,49 2,24 6,08 7,81 2,00 P_10 6,40 4,00 5,00 8,06 3,00 6,00

P_7 P_8 P_9 P_10 1,00 5,83 6,08 6,40 5,10 3,00 8,49 4,00 3,00 5,10 2,24 5,00 2,24 7,62 6,08 8,06 5,00 2,00 7,81 3,00 3,16 6,08 2,00 6,00 0 5,39 5,10 5,83 5,39 0 6,71 1,00 5,10 6,71 0 6,32 5,83 1,00 6,32 0

Wyszukiwanie informacji

Agnieszka Nowak

1 iteracja

Szukamy minimalnej odległości, i znajdujemy ją dla pary obiektów P_1 oraz p_7.

Teraz łączymy obydwa obiekty w jedno skupienie.

Wyszukiwanie informacji

Agnieszka Nowak

Zgodnie z algorytmem z macierzy usuwamy kolumne i wiersz dla obiektu o wyższym indeksie (czyli P_7).

Tworzymy nową grupę P_17 i na nowo obliczamy odległości wszystkich obiektów do nowo utworzonej grupy.

Ogólna formuła wyznaczania odległości podczas łączenia skupień Gp i Gq w nowe skupienie dla hierarchicznych procedur grupowania to:

d pj = a p d pj + aq d qj + bd pq + c d pj − d qj Wielkości

a

p

,

a

,

q

b

,

c

są parametrami przekształcenia charakterystycznymi dla

różnych metod tworzenia skupień. Wartości tych parametrów są przedstawione w tabeli.

Wyszukiwanie informacji

Metoda

Agnieszka Nowak

a

p

a

q

b

c

Najbliższego sąsiedztwa

0,5

0,5

0

-0,5

Najdalszego sąsiedztwa

0,5

0,5

0

0,5

Mediany

0,5

0,5

-0,25

0

0

0

Średniej grupowej

Środka ciężkości

Warda

np

nq

n p + nq

n p + nq

np

nq

n p + nq

n p + nq

ni + n p ni + n p + nq

ni + nq ni + n p + nq



n p nq ( n p + nq ) 2 −

0

ni ni + n p + nq

0

Po połączeniu obiektów P_1 i P_7: •

Usuwamy obiekt P_7 (kolumnę i wiersz 7) a w wierszu i kolumnie dla P_1 wstawiamy nowe odległości:

Np.: odległość nowego skupienia P_17 od obiektu P_2 wg miary: d 172 = 0.5 * d12 + 0.5 * d72 + 0 * d17 – 0.5 |d12 – d72| = 0.5 * 5 + 0.5 * 5.1 – 0.5|5 – 5.1| = 2.5 + 2.55 – 0.05 = 5 W kolejnej iteracji łączymy obiekty P_2 oraz P_5.

W iteracji nr 3 łączymy P_3 oraz P_6.

Wyszukiwanie informacji

Iteracja 4 łączy obiekty P_8 oraz P_10.

Iteracja nr 5 to połączenie obiektów p_17 z obiektem P_4.

Następnie łączymy obiekty P_25 z obiektem P_810

Agnieszka Nowak

Wyszukiwanie informacji

Agnieszka Nowak

Iteracja kolejna to połączenie obiektów P_36 oraz obiektu P_9.

Kolejno łaczymy grupy P_174 z grupą P_369

I ostatecznie w n-1 iteracji połączymy 2 ostatnie grupy P_174369 z grupą P_25810.

Wyszukiwanie informacji

Agnieszka Nowak

Przebieg aglomeracji

Odległość

Łączone obiekty:

1

P_1, P_7

1

P_2, P_5

1

P_3, P_6

1

P_8, P_10

2

P_1, P_7, P_4

2

P_2, P_5, P_8, P_10

2

P_3, P_6, P_9

3

P_1, P_7, P_4, P_3, P_6, P_9

5

P_1, P_7, P_4, P_3, P_6, P_9, P_2, P_5, P_8, P_10

Dendrogram

Wyszukiwanie informacji

Agnieszka Nowak

Co to jest Carrot2 ? Jak mówią twórcy systemu - Carrot2 jest systemem grupującym dane tekstowe. Grupuje wyniki z wyszukiwarek internetowych, podobnie jak czyni to serwis Vivisimo. Carrot2jest modułowym systemem przetwarzania rezultatów wyszukiwania danych w wyszukiwarkach internetowych, choć może być użyty również do innych typów danych. Architektura systemu jest zorientowana głównie na prostotę rozbudowy i ponownego użycia jego istniejących elementów składowych, czasem kosztem efektywności (dlatego właśnie Carrot2 jest systemem

n

a

u

k

o

w

y

m

:).

System był zbudowany pierwotnie do przetwarzania danych z wyszukiwarek internetowych, ale może być również użyty w innych celach. http://www.cs.put.poznan.pl/dweiss/carrot/

Schemat przepływu danych w systemie Carrot

Wyszukiwanie informacji

Agnieszka Nowak

Systemy odpowiadające na pytania - [system START, system AnswerBus]

Wyszukiwanie informacji

Agnieszka Nowak

Wyszukiwanie informacji

Agnieszka Nowak

Podsumowanie Na prawdziwy przełom możemy liczyć dopiero wówczas, gdy nastąpi zmiana sposobu patrzenia na to, jak powinny działać wyszukiwarki. Obiecujące wydaje się być odejście od wyszukiwania dokumentów w sieci, a skupienie się na poszukiwaniu informacji – tak jak robią to systemu oparte na technikach: knowledge retrieval, question answering system. Przykładem tego typu systemów są system Start MIT, czy AnswerBus, będące pracami prowadzonymi na uniwersytecie w Michigan, Wydane im zapytanie stanowi cel nie zaś zbiór oderwanych od siebie słów kluczowych.

Idealny system wyszukiwania informacji: To taki który potrafi odpowiedzieć na każde pytanie poprawnie. Niestety taki system nigdy nie powstanie. Wiedza płynąca z internetu jest dość niepewnym źródłem informacji, i faktów, o czym warto pamiętać, - bo każdy może umieścić w sieci informacje...nie do końca precyzyjne ale i często błędne. Pojawiające się nowe pomysły mające na celu ułatwianie użytkownikom korzystanie z wyszukiwarek, to z pewnością krok by uczynić tę czynność przyjemniejszą i bardziej intuicyjną. Nie można jednak liczyć na to, ze wyszukiwarki w przyszłości będą w stanie wyręczyć nas z umiejętności logicznego myślenia i odrobiny dociekliwości w szukaniu tego co nas interesuje.

Literatura http://www.cs.put.poznan.pl/dweiss/ Kłopotek M., „Inteligentne wyszukiwarki internetowe”, EXIT, 2001 http://www.ipipan.waw.pl/~klopotek/mak/book3.htm