Joanna Papińska-Kacperek Katedra Informatyki UŁ

Wyszukiwanie informacji w Internecie

Materiały dydaktyczne dla studentów I roku

Łódź 2012

Wyszukiwanie informacji w Internecie

Najczęściej wymienianą usługą internetową, z której korzystają internauci jest zwykle WWW czyli World Wide Web, stworzone przez Timothy BernersaLee w 1990 roku na potrzeby badaczy CERN. Dzięki niemu, uŜytkownikami Internetu są dziś nie tylko naukowcy i studenci, jak było w pierwszym okresie działalności ARPANETu, ale takŜe zwykli ludzie, i dlatego tworzeniem stron internetowych zainteresował się biznes i administracja. W Internecie jest wiele cennych i potrzebnych informacji, ale z powodu ogromnej liczby stron WWW nie sposób jest znaleźć czegokolwiek bez uŜycia wyszukiwarki lub katalogu. Pojawiło się zatem zapotrzebowanie na wymienione narzędzia oraz na budowanie strategii pozycjonowania stron, szczególnie komercyjnych, czyli zapewnienia wysokiej pozycji w wynikach wyszukiwarek i katalogów. Ostatnio jednak nawet uŜywanie takich narzędzi nie przyspiesza procesu efektywnego wyszukiwania w tak istotny sposób jak kiedyś. Dzieje się to z powodu istnienia oprócz wartościowych, takŜe niezbyt polecanych stron, stworzonych np. przez lub dla zwolenników zabronionych poglądów jak faszyzm, wyznawców sekt, czy aprobujących groźne dla zdrowia choroby jak anoreksja, a takŜe z powodu istnienia stron tworzonych nie dla ludzi, a dla robotów wyszukiwarek internetowych (czyli tworzonych tylko i wyłącznie w celu promocji innej strony w wyszukiwarce). Według badań Bluerank w 2008 roku aŜ 30% respondentów nie było w pełni usatysfakcjonowanych wynikami wyszukiwania najpopularniejszej wyszukiwarki Google. Coraz częściej zatem to nie tylko chęć zaoszczędzenia czasu skłania nas do uŜycia Google lub innego serwisu, ale w ogóle konieczność szukania informacji np. o produktach i usługach. Wtedy waŜna jest takŜe moŜliwość zobaczenia w wyszukiwarce zdjęć produktów, czy budynku firmy, moŜliwość znalezienia drogi dojazdu itp. UŜytkownicy musza się jednak liczyć z tym, Ŝe prawdopodobnie spędzą na wyszukiwaniu trochę czasu - bo nie wszystkie pokazane w wynikach odnośniki poprowadzą na stronę, która w wyczerpujący sposób spełni ich oczekiwania, czyli znajdą na niej odpowiedź na swoje zapytanie. Z tego powodu w wielu

Opracowanie dr inŜ. Joanna Papińska-Kacperek

2

Wyszukiwanie informacji w Internecie

biznesowych przedsięwzięciach zatrudniani są profesjonalni brokerzy informacji czyli infobrokerzy, którzy na zlecenie wyszukują potrzebne dane. Powstała takŜe koncepcja budowania inteligentnych agentów do wyszukiwania informacji w Internecie, a twórca WWW Tim Berners Lee zaproponował przebudowę istniejącego chaosu informacyjnego w sieć semantyczną nazywaną teŜ Web 3.0.

Wyszukiwanie przed epoką Web 3.0 Przyjmuje się, Ŝe obecnie Internet składa się z milionów komputerów (według CIA World Factbook 2009 było ok. 575 mln). Trudno jest ustalić ile jest w sieci witryn, portali i stron – bowiem codziennie powstaje i znika ogromna ich liczba, a nie wszystkie są zaindeksowane przez wyszukiwarki. Łatwiej określić jest katalogowaną przez ICANN liczbę domen i serwerów, ale i ich liczba moŜe dość szybko ulegać zmianie. Według badań NEC Research Institute w 1999 roku istniało 800 milionów stron WWW. W 2002 roku wyszukiwarka Google przechowywała w swoich bazach danych ponad 2 miliardy odnośników1, a w 2005 roku było ich juŜ 8 miliardów2. Według Antonio Gulli i Allesio Signorini w 2005 roku wyszukiwarki indeksowały ponad 11,5 mld stron, z czego około 9,36 mld przypadało na największe wtedy Google, Yahoo, MSN i Ask. Oprócz wyszukiwarek w Internecie działają inne serwisy ułatwiające poszukiwanie informacji. Stosowane były i są nadal takŜe katalogi stron internetowych i metawyszukiwarki (multiwyszukiwarki). Katalogi stron internetowych Katalogi stron internetowych to serwisy moderowane ręcznie, których celem jest grupowanie tematyczne zbioru adresów internetowych. Autorzy lub właściciele stron zgłaszają swoje strony do katalogów, zazwyczaj z krótkim opisem, po czym, zwykle po przejrzeniu, strona zostaje wpisana na listę pod danym hasłem. Katalog stron jest strukturą drzewiastą: witryny przypisane są, ze 1

A. Łamek Ukryty Internet, Magazyn Internet 7/2002

2

Wyszukiwarka Google w portalu Interia.pl http://gospodarka.gazeta.pl/gospodarka/1,33181,2498171.html [dostęp 20 VIII 2012]

Opracowanie dr inŜ. Joanna Papińska-Kacperek

3

Wyszukiwanie informacji w Internecie

względu na swoją zawartość do poszczególnych kategorii, które dzielą się na kategorie podrzędne. Najpopularniejszy to Yahoo, a w Polsce katalogi portali Wirtualna Polska i Onet. Najbardziej istotnym jest katalog Open Directory Project DMOZ http://www.dmoz.org,

utworzony w 1998 roku jako directory.mozilla.org,

moderowany w 2010 roku przez 75 tysięcy redaktorów. Dostęp do katalogu oraz zgłoszenia stron są w nim bezpłatne, ale z powodu wysokich wymagań jedynie naprawdę wartościowe strony mają szansę zaistnieć w DMOZ. W 1992 roku z inicjatywy Rafała Maszkowskiego powstał pierwszy katalog stron znajdujących się w polskim internecie, późniejsze "Polskie Zasoby Sieciowe". Dane przedstawione były wówczas w postaci czystego ASCII. Rok później w związku z rozprzestrzenieniem się standardu HTML katalog obsługiwał juŜ linki hipertekstowe. "Polskie Zasoby Sieciowe" zakończyły swoją działalność w roku 1997. Wadą katalogów jest mała liczba zawartych w nich stron w porównaniu z innymi narzędziami oraz długi czas aktualizacji. Powodem są ograniczone ludzkie moŜliwości. Strony internetowe powstają, znikają i zmieniają się, a weryfikacja ich zawartości czy obecności wymaga ponownego odwiedzenia ich przez redaktora. Kolejną wadą jest róŜna interpretacja kategorii: tę samą stronę dwie osoby mogą umieścić w róŜnych kategoriach, co moŜe prowadzić do nieporozumień. Na przykład strona poświęcona grze w szachy moŜe zostać umieszczona przez redaktora katalogu w kategorii sport, natomiast szukający tej strony będzie poszukiwał informacji na ten temat w kategorii gry. Wyszukiwarki Pierwszą funkcjonalną wyszukiwarką zawartości stron internetowych, posiadającą zaimplementowane funkcjonalności robota śledzącego (nazwanego tu World Wide Web Wanderer - 4W) i indeksującego strony oraz wyposaŜonego w zdolność przeszukiwania utworzonych indeksów, był uruchomiony w 1993 roku Wandex. Napisał go Matthew Gray, wówczas pracownik MIT, obecnie Google. Wyszukiwarki to aplikacje tworzące automatycznie bazy danych Opracowanie dr inŜ. Joanna Papińska-Kacperek

4

Wyszukiwanie informacji w Internecie

o witrynach, w ich skład wchodzą programy nazywane m.in. crawlerami, robotami,

pająkami

lub

botami

czyli

roboty

internetowe

pobierające

i przeglądające dokumenty z sieci. Inny moduł wyszukiwarki odczytuje zapytanie uŜytkownika i zwykle przeszukuje swoje bazy nazwane indeksami, które co jakiś czas są aktualizowane - po kolejnej turze pracy robotów. Roboty standardowych wyszukiwarek odwiedzają tylko te strony, do których prowadzą odnośniki z innych witryn oraz te, które zostały zgłoszone do nich przez swoich autorów lub właścicieli. NajwaŜniejszymi algorytmami stosowanymi w wyszukiwarkach są algorytmy oceny relewancji3 dokumentu względem szukanej frazy oraz algorytmy oceny zawartości strony. Często są strategiczną tajemnicą właściciela wyszukiwarki, przesądzającą o jej skuteczności. Wiadomo o stosowaniu algorytmów: binarnych, waŜenia częstością słów TF, PageRank, In-degree, metody Robertsona i Sparcka-Jonesa (1997), metody Robertsona (1994), modelu Markova, metody bazowej B, liczby wizyt (klikohit) i wielu innych. Poprawę relewancji wyników wyszukiwania moŜna uzyskać poprzez grupowanie (clustering), personalizację, weryfikację pisowni, tzw. stop-words – czyli stop listy oraz tezaurus, czyli podpowiedzi. Google to najpopularniejsza wyszukiwarka na świecie. Została stworzona przez Larry’ego Page'a oraz Sergeya Brina w 1996 roku, w ramach ich projektu studenckiego na Uniwersytecie Stanford. W 1998 roku załoŜyli firmę Google Inc. Słowo "googol" to liczba 10100. Pierwszy uŜył tego terminu amerykański matematyk, Edward Kasner, zainspirowany dźwiękami wydawanymi przez jego bratanka Miltona Sirotta. Wyszukiwarka Google jako pierwsza wprowadziła moŜliwość przeszukiwania nie tylko stron HTML, ale takŜe dokumentów zapisanych w formacie PDF, a później DOC, arkuszy Excel, prezentacji PowerPoint, plików RTF i postscriptowych (.PS). Dziś moŜna równieŜ przeszukiwać grafiki (JPG, GIF), filmy, grupy dyskusyjne oraz katalogi. 3

Relewancja- związek, zwłaszcza logiczny, z rzeczą, o którą chodzi, relewantny - pozostający w (log.) związku z, odnoszący się do, stosujący się do; dostarczający dowodu słuszności; istotny dla. Opracowanie dr inŜ. Joanna Papińska-Kacperek

5

Wyszukiwanie informacji w Internecie

Wybrane graficzne źródła pokazywane są obecnie od razu razem z wynikami SERP (search engine results page - strona z wynikami wyszukiwania). Wraz z rozwojem firmy, Google zaczęło poszerzać listę swoich usług, dołączyło pocztę elektroniczną, albumy zdjęć, aplikacje biurowe Google Docs, narzędzia Google Analytics i wiele innych. Jedną z ostatnich nowości jest Google Instant, czyli domyślanie się o co chce zapytać uŜytkownik – poprzez pokazywanie listy propozycji ciągu dalszego wpisywanego zapytania. Dziś Google to finansowy gigant. W 2005 roku przychody firmy sięgnęły 6,1 mld USD, a zysk wyniósł 2 mld. Google odnotował w pierwszym kwartale 2006 roku 79% wzrost przychodów w porównaniu z pierwszym kwartałem 2005 roku. Po latach kryzysu, w pierwszym kwartale 2010 roku przychody firmy wzrosły o 37% i wyniosły 1,96 miliarda dolarów. Polska

strona

http://www.ranking.pl/

ocenia

popularność

m.in.

wyszukiwarek. Ranking obliczany jest na podstawie procentowej liczby wizyt na polskich witrynach dokonanych z wyszukiwarek uczestniczących w badaniu GemiusTraffic. W Tabeli 1 podano trzy najpopularniejsze wyszukiwarki w grudniu 2010 roku. Tabela 1. Najpopularniejsze wyszukiwarki wśród polskich internautów lp

Wyszukiwarki-silniki

29.XI.2010 - 5.XII.2010

22.XI.2010 - 28.XI.2010

1 2 3

Google NetSprint MSN

97,20% 1,39% 0,72%

97,57% 1,14% 0,72%

15.XI.2010 21.XI.2010 97,74% 1,17% 0,72%

Źródło http://www.ranking.pl/pl/rankings/search-engines.html [9 XII 2010]

W 2006 roku, w podobnym okresie, pierwsze było Google, potem Morfeo i NetSprint, MSN, Szukacz, Yahoo i Altavista. Jak widać konkurencyjne wyszukiwarki nie zagraŜają pozycji Google, co zauwaŜa się nie tylko w Polsce. Nie mniej ciągle na rynku powstają nowe, jedną z nich była europejska inicjatywa ograniczenia dominacji USA w Internecie Quaero (łac. szukam) czyli projekt europejskiej wyszukiwarki internetowej prowadzony przez firmy Thomson, France Telecom, Siemens AG, Thales, Bertin Technologies, Exalead, Jouve, LTU, Vecsys, Empolis, a wspomagany przez instytuty naukowe Inria, Inra, CNRS, Clips Imag, RWTH Aachen, Uniwersytet Karlsruhe.

Opracowanie dr inŜ. Joanna Papińska-Kacperek

6

Wyszukiwanie informacji w Internecie

Mimo wciąŜ dołączanych funkcjonalności, zapytania do baz danych są nadal poza zasięgiem wyszukiwarek. Google i kaŜda inna wyszukiwarka znajdzie tylko stronę główną np. z rozkładem jazdy, ale nie da sobie rady z wypełnieniem formularza i zadaniem pytania o konkretne połączenie. To zadanie mogą wykonać przyszłe wyszukiwarki semantyczne lub inteligentne agenty. Metawyszukiwarki i metabazy Metawyszukiwarki (Meta-Search Engines) to serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią wysłać zadane zapytanie do kilku lub kilkunastu samodzielnych wyszukiwarek, odebrać od nich wyniki i przedstawić je w przejrzystej formie. Wadą metawyszukiwarek jest brak dostępu do specyficznych zapytań złoŜonych jakie dają zwykłe wyszukiwarki. Zaletą zaś jest to, Ŝe moŜna zadać jedno pytanie do kilku serwisów przy odwiedzeniu tylko jednego. Zaoszczędza to czas i daje moŜliwość przeszukania większej części zasobów Internetu. Niektóre metawyszukiwarki opracowują otrzymaną listę wyników: usuwają powtarzające się adresy i te, które juŜ nie istnieją, a są jeszcze zapisane w bazie wyszukiwarek. Dodatkowo mogą sortować na róŜne sposoby wyświetloną listę. Przykładami matawyszukiwarek są (istniejące w 2010 roku): 

Ixquick http://www.ixquick.com (w wielu wersjach językowych równieŜ w polskiej),



Metacrawler http://www.metacrawler.com ,



Yippy http://www.yippy.com (dawniej Clusty),



Dogpile http://www.dogpile.com,



Pandia Metasearch http://www.pandia.com/metasearch/index.html,



Copernic http://find.copernic.com. Niektóre

ujawniają

z

jakich

zwykłych

wyszukiwarek

korzystają

w pierwszej kolejności, np. Pandia z Yahoo!, MSN, AlltheWeb, Ask.com, Wisenut, Dogpile wyszukuje z Google, Yahoo, Bing i Ask, a Yippy z Ask, Open Directory (DMOZ), Gigablast i innych. Opracowanie dr inŜ. Joanna Papińska-Kacperek

7

Wyszukiwanie informacji w Internecie

W dotarciu do mało znanych lub głębiej schowanych zasobów sieci pomagają specjalistyczne serwisy jak metabazy czyli zbiory wydobytych z sieci baz danych dotyczących róŜnych obszarów wiedzy, albo teŜ serwisy przeszukujące określony obszar sieci, koncentrujące się na jednej tylko dziedzinie. Complet Planet http://www.completeplanet.com to metabaza, która daje dostęp do 70 tysięcy baz danych i serwisów wyszukiwawczych. MoŜna do nich dotrzeć poprzez katalog tematyczny albo na skróty - po słowie kluczowym. Inny serwis

to

Infomine

http://infomine.ucr.edu

adresowany do

środowiska

akademickiego, powstał z inicjatywy pracowników kilku amerykańskich uczelni i bibliotek uniwersyteckich (m.in. University of California i University of Detroit). Gromadzi w swoim katalogu wartościowe materiały przydatne naukowcom i studentom. Są to bazy danych, elektroniczne biuletyny, ksiąŜki, artykuły, archiwa list elektronicznych, dotyczące poszczególnych nauk, np. medycyny,

nauk

humanistycznych,

matematycznych

itp.

Bubl

Link

http://bubl.ac.uk/ to z kolei brytyjski katalog rzeczowy, indeksujący zasoby o charakterze akademickim, jak ksiąŜki i czasopisma elektroniczne, repozytoria tematyczne, katalogi biblioteczne online. MoŜna tu wyszukiwać według tematu bądź rodzaju źródła. Invisible Web DuŜa część materiałów znajdujących się w Internecie była kiedyś niedostępna bo "niewidzialna" dla wyszukiwarek z powodu np. formatu pliku. Pierwotnie nawet Google wyszukiwało informacje tyko ze stron HTML, z czasem jednak ulepszano algorytmy i obecnie znajdowane są dokumenty DOC, PDF i

inne dokumenty tekstowe. Według NEC Research Institute w 1999 roku wyszukiwarki indeksowały

tylko 16% wszystkich stron WWW. Powstały zatem terminy „ukryta sieć” (ang Invisible Web) lub głęboka sieć (ang Deep Web) odnoszące się do zasobów Internetu, do których nie docierają standardowe wyszukiwarki.

Opracowanie dr inŜ. Joanna Papińska-Kacperek

8

Wyszukiwanie informacji w Internecie

Według Chrisa Shermana i Gary Price'a Invisible Web to dostępne w sieci strony, pliki czy inne informacje, których z przyczyn technicznych bądź innych ograniczeń, nie indeksują wyszukiwarki. W innej definicji Michaela Bergmana Deep Web to strony internetowe tworzone dynamicznie jako wynik specjalistycznych wyszukiwań w bazach danych. Zatem

niewidzialnymi

zasobami,

oprócz

nieindeksowanych

stron

i dokumentów tekstowych w innych formatach niŜ HTML, były teŜ dokumenty graficzne, muzyczne, strony Flash, arkusze kalkulacyjne, bazy danych (publicznie dostępne - bazy danych komercyjne powinny być z załoŜenia elementem ukrytej sieci), strony generowane dynamicznie (PHP, ASP), większość stron instytucjonalnych lub płatnych, które wymagały wcześniejszej rejestracji, strony do których nie prowadzą odsyłacze, strony wyłączone z procesu indeksacji przez twórców (poprzez umieszczenie w kodzie strony metatagu robots lub poprzez utworzenie pliku robots.txt w określonym katalogu serwera WWW). Powstawać zaczęły wyszukiwarki zaprojektowane do przeszukiwania ukrytych zasobów sieci, np. Incywincy http://www.incywincy.com przeglądająca strony internetowe, jak teŜ wykorzystująca wyszukiwarki, metawyszukiwarki, formularze i katalogi. Co pewien czas publikowane były szacunki porównujące oba obszary sieci: widzianej przez wyszukiwarki (Surface Web) i sieci ukrytej. Większość z materiałów cytuje badania Michaela Bergmana z 2001 roku, według których sieć niewidzialna była wtedy nawet ok. 400-550 razy większa niŜ zasoby Surface Web i liczyła ok. 550 mld dokumentów. AŜ 95% zasobów ukrytych było dostępnych bezpłatnie, ponad połowę stanowiły tematyczne bazy danych. Szacunki te podwaŜył w 2005 roku Dirk Lewandowski. Dane te i tak z pewnością do dziś uległy zmianie, wyszukiwarki bowiem zaczęły wkraczać w niewidzialną część sieci, wzbogacały się o moŜliwości przeszukiwania tekstów zapisanych w róŜnych formatach i dziś znajdują juŜ pliki PDF, DOC, a nawet pliki graficzne, filmy i podcasty. MoŜna zatem

Opracowanie dr inŜ. Joanna Papińska-Kacperek

9

Wyszukiwanie informacji w Internecie

skonstatować, Ŝe za sprawą ulepszonych algorytmów tzw. głęboki Internet wypłynął na wierzch i juŜ jest widziany w wynikach wyszukiwarek.

Wyszukiwanie w czasach zbyt mocnej promocji strony Dlaczego, mimo ciągłego ulepszania algorytmów, wyszukiwanie nie daje często dobrych wyników? Przyczyną jest nieetyczne pozycjonowanie, czyli działania nie zgodne z wytycznymi IAB lub regulaminami wyszukiwarek. Ich właściciele chcieliby, aby klienci, czyli uŜytkownicy Internetu poszukujący informacji, uzyskiwali dobre wyniki, czyli odpowiadające na ich zapytania i tym samym byli zadowoleni z serwisu. Większość współczesnych wyszukiwarek wyszukuje informacje za pomocą słów kluczowych. Po wprowadzeniu szukanej frazy wyszukiwarka wyświetla listę linków do stron, które dane wyraŜenie zawierają. To zaś, która strona znajdzie się najwyŜej zaleŜy od liczby słów kluczowych w tekście, ich miejsca na stronie, a takŜe od tego czy słowa zawierają odnośniki do stron z dodatkowymi informacjami. W rezultacie bardzo często na szczycie SERP pojawiają się linki do witryn, które nie spełniają oczekiwań szukającego, ale są dobrze wypozycjonowane przez ich twórców, którzy w celu polepszenia pozycji strony w wynikach wyszukiwarek wstawiają np. ukryty tekst. Gdy zorientowano się, Ŝe wyszukiwarki indeksują strony linkowane, zaczęły powstawać tw. farmy linków, czyli strony zawierające tylko odnośniki do innych stron. Algorytmy wyszukiwarek zaczęły jednak identyfikować tego typu serwisy. Pojawiły się wtedy strony z unikalnym, ale nie zawsze merytorycznie poprawnym tekstem, generowane tylko i wyłącznie w celu linkowania. To tzw. zaplecze pozycjonerskie, tworzone najczęściej w sposób zupełnie przypadkowy lub automatycznie przez programy, czasami poprzez powielanie swoich lub cudzych tekstów, rzadziej tworzone przez wynajętych pracowników - ale nawet wtedy nie są pielęgnowane i tracące często swoją aktualność. Jest to zatem tylko i wyłącznie mnoŜenie liczby stron (bytów) nieuŜytecznych dla uŜytkowników sieci szukających informacji, zatem jest to SPAM. Nie ma badań oceniających liczbę takich stron, są jednak źródła Opracowanie dr inŜ. Joanna Papińska-Kacperek

10

Wyszukiwanie informacji w Internecie

wskazujące, Ŝe do pozycjonowania jednej strony tworzonych jest co najmniej kilkadziesiąt innych, zatem mogą stanowić duŜy procent wszystkich i prawdopodobieństwo, Ŝe uŜytkownik wyszukiwarki trafi na jedną z nich jest dość duŜe. Gorzej jeśli nie uzna jej za mało wartościową i skorzysta z zawartych w niej informacji. Twórcy lub zarządcy zaplecza pozycjonerskiego, manipulują zatem wynikami wyszukiwania, stąd tego typu działania są tępione przez właścicieli wyszukiwarek. Google w 2007 roku ogłosiło, Ŝe strony zaplecza będą zwalczane, i zastrzegło sobie moŜliwość ograniczenia mocy odnośników umieszczonych na stronach, w przypadku wykrycia, iŜ funkcjonują one jedynie w celu pozycjonowania. Firmy lub osoby zajmujące się pozycjonowaniem tworzą takŜe katalogi, które znacznie odbiegają od idei katalogu Yahoo czy DEMOZ. Są to strony zbudowane z gotowych skryptów np. QlWeb, mające na celu linkowanie, często odpłatnie dla wszystkich zgłaszających swoje strony - bez weryfikacji co zawierają. Od pewnego czasu takie katalogi mają jednak znikomą wartość bowiem programy wyszukiwarek wzbogacono o algorytmy wykrywające i ignorujące katalogi oparte o QlWeb, Freeglobes, Mini, Scuttle i innych popularnych skryptach. W ich miejsce zaczęły pojawiać się katalogi typu presell pages róŜniące się od poprzednich tym, iŜ przypominają blog lub CMS. Starają się naśladować sytuację linkowania naturalnego, kiedy osoba (np. blogger) opisuje w swoim wpisie np. firmę, produkt bądź zjawisko, umieszczając w tekście linki prowadzące do stron powiązanych z poruszanym tematem. Wzrastającą liczbę serwisów typu presell pages zauwaŜyło Google, i w komunikatach publikowanych w 2007 roku zasygnalizowało, Ŝe skoro mają one na celu jedynie przekazywanie mocy w postaci linków wychodzących, nie słuŜą w Ŝaden sposób internautom. Nie jest to zatem forma promocji akceptowana przez wyszukiwarki, bo jej efektem jest równieŜ manipulacja uŜytkowników wyszukiwarek.

Opracowanie dr inŜ. Joanna Papińska-Kacperek

11

Wyszukiwanie informacji w Internecie

Wyszukiwanie w sieci semantycznej Pod koniec XX wieku rozpoczęto prace nad projektem Tima Bernersa Lee: Semantic Web (sieć semantyczna nazywana teŜ Web 3.0), który ma przyczynić się do utworzenia i rozpowszechnienia standardów opisywania treści w Internecie w sposób, który umoŜliwiłby maszynom i programom (np. robotom wyszukiwarek, autonomicznym agentom) przetwarzanie informacji w sposób odpowiedni do ich znaczenia. Czas sieci semantycznej według prognoz Nova Spivaka miał się zacząć w 2010 roku. Czy tak się stało? Istnieją juŜ strony stosujące standardy RDF (ang. Resource Description Framework) czy OWL (ang. Ontology Web Language), ale Web 3.0 rzeczywiście zaistnieje, gdy wszystkie strony dostosują się do nowych norm, bowiem wtedy budowane obecnie aplikacje jak np. wyszukiwarki semantyczne, będą działać tak, jak tego oczekują zwolennicy nowej struktury sieci WWW. Idea sieci semantycznej polega na wykorzystaniu juŜ istniejącego protokołu do takiego sposobu przetwarzania informacji, który umoŜliwi powiązanie znaczeń między wyrazami, a nie tylko wykorzystanie słów kluczowych. Chodzi więc o semantykę, którą sieć moŜe zrozumieć analizując strukturę stron. Obecnie strony są przygotowywane dla ludzi, a mało zrozumiałe dla programów. Spójrzmy na fragment strony przychodni rehabilitacyjnej: Cenrtum rehabilitacyjne/ Witamy na stronie centrum rehabilitacyjnego. Nasi pracownicy to dyplomowani rehabilitanci: Jan Kowalski i Adam Nowak oraz dyplomowana pielęgniarka Krystyna Wiśniewska. Odczuwasz ból? Przyjdź koniecznie. Godziny przyjęć: Pon 11.00– 19.00
Wt 11.00– 19.00
Śr 11.00– 19.00
Czw 11.00– 19.00
Pt 11.00– 19.00
Rysunek 1 Kod strony w HTML

Informacje podane na tak zdefiniowanej stronie będą wystarczające dla człowieka, ale program nie będzie potrafił np. zidentyfikować, kto jest

Opracowanie dr inŜ. Joanna Papińska-Kacperek

12

Wyszukiwanie informacji w Internecie

rehabilitantem, a kto pielęgniarką. Zaproponujmy zatem reprezentację wiedzy bardziej dogodną dla komputera. rehabilitacja centrum rehabilitacji Jan Kowalski Adam Nowak Krystyna Wiśniewska Rysunek 2 Kod strony z metadanymi

Informacje przekazywane w ramach sieci wymagają nie tylko danych, ale takŜe informacji o nich tzw. metadanych, czego przykład widać powyŜej. Zapis metadanych składa się ze zbioru atrybutów niezbędnych do opisu zasobu. Istotną rolę w tworzeniu semantycznego Internetu, a szczególnie reprezentacji wiedzy, odgrywają ontologie. Ontologia stanowi wspólny zbiór twierdzeń sformułowanych przy pomocy istniejących standardów np. w XML czy/i RDF, który opisuje i definiuje relacje między pojęciami i wyznacza reguły wnioskowania. To właśnie dzięki ontologiom komputery są w stanie zrozumieć semantyczną zawartość dokumentów w sieci. Ontologie są tworzone przy pomocy specjalizowanych języków, takich jak: OWL, SHOE, OIL, DAML. Ontologie zwiększają moŜliwości sieci pod wieloma względami. Najprostszy sposób ich wykorzystania to precyzyjniejsze przeszukiwanie sieci np. wyszukiwarka wybierze tylko te strony, na których występuje dane pojęcie, ale w ściśle zdefiniowanym znaczeniu, a nie słowo kluczowe, które jest przecieŜ często wieloznaczne. Wprowadzanie metaopisów do kodu stron internetowych wydaje się odległą przyszłością, np. z powodu niechęci webmasterów i braku widocznych korzyści wynikających z dodawania metadanych. Dopóki nie ma wielu aplikacji Web 3.0 nie wszyscy rozumieją, Ŝe ułatwi to przetwarzanie informacji. Kiedy wszystkie dane w Internecie opatrzone zostaną metadanymi, czyli zaczną rozumieć je algorytmy, uŜytkownicy sieci będą masowo korzystać z usług

Opracowanie dr inŜ. Joanna Papińska-Kacperek

13

Wyszukiwanie informacji w Internecie

osobistych agentów, które mogą poszukiwać informacji i na ich Ŝyczenie podejmować decyzje: wybierać połączenia komunikacyjne, rezerwować hotele, a nawet negocjować ceny. Sieć semantyczna staje się rzeczywistością dzięki aplikacjom, które ją wykorzystują i wspierają - takim jak np. wyszukiwarki semantyczne. Zalicza się do nich wyszukiwarki analizujące znaczenie indeksowanych dokumentów (Hakia, Bing - dawniej Powerset, Google Squared) oraz wyszukiwarki przeszukujące zasoby sieci semantycznej czyli zawartość plików RDF oraz modeli interpretacji danych, czyli ontologii zapisanej w OWL (np. Swoogle, Sindice, Falcons, Watson)- obie działają inaczej i pełnią inną rolę w poszukiwaniu informacji. Wyszukiwarki analizujące znaczenie Wyszukiwarki tego typu przeszukują zawartość znaczeniową stron WWW w oparciu o semantyczną i gramatyczną analizę języka dokumentu. Niezwykle trudne jest przełoŜenie języka naturalnego na język zrozumiały dla algorytmu. W tym celu stosują metody sztucznej inteligencji - NLP (Natural Language Processing) oraz algorytmy heurystyczne. DuŜym problemem są tu trudności związane z analizą wyraŜeń języka naturalnego, ich wieloznaczność, specyfika języka itp. nie tylko w treści dokumentów, ale takŜe w zapytaniach, gdyŜ wiele wyszukiwarek akceptuje zapytania w języku naturalnym. To właśnie ma być elementem nowego modelu przeszukiwania i wykorzystywania zasobów Internetu. Wyszukiwarki analizujące znaczenie przeszukując strony WWW tworzą własną bazę ontologii. Dzięki temu dostarczane będą bardziej relewantne wyniki, przedstawione w bardziej odpowiadającej zapytaniu hierarchii. Nie ma jeszcze w pełni funkcjonalnych przykładów wyszukiwarek tego typu, najbardziej doceniana jest uruchomiona w 2009 roku Wolfram Alpha, która nie wyświetla w odpowiedzi adresów stron powiązanych z zapytaniem, lecz udostępnia konkretne dane. MoŜna je zapisać w formacie PDF. Jedną, która wcześniej wniosła duŜo w rozwój semantycznych wyszukiwarek był Powerset, Opracowanie dr inŜ. Joanna Papińska-Kacperek

14

Wyszukiwanie informacji w Internecie

kupiony w 2008 roku przez Microsoft i rozwijany od 2009 roku jako Bing. W 2004 roku powstała Hakia, która podaje jako wyniki posegregowane linki w grupach Web, News, Blogs, Credible Sources, Video oraz Images. Kategoryzacji wyników dokonuje takŜe wyszukiwarka Yebol.com, akceptująca równieŜ zapytania w języku naturalnym. Google Sqared pokazuje wyniki w postaci danych zawartych w tabelach, które moŜna wyeksportować do formatu CSV lub arkusza kalkulacyjnego Google. Wskazując komórki tabeli zobaczyć moŜna źródła zdobytych danych - na razie bardzo często jest to róŜnie oceniana, jeśli chodzi o wiarygodność, Wikipedia. TakŜe głównie na niej opierają się wyniki innej wyszukiwarki semantyczne Bing (Powerset). Wszystkie projekty są potencjalnymi konkurentami tradycyjnego Google, bardo często ich premiery reklamowane były w taki sposób np. Bing Microsoft w maju 2009 roku. Pojawiły się takŜe polskie przykłady, np. juŜ nie istniejący Szuku.pl, Hippisek.pl, który bazę wiedzy buduje głównie w oparciu o serwisy tvn24 oraz pudelek.pl, oraz aktywny KtoCo http://www.ktoco.pl (od 2009 roku). Celem jego działania, jest nie tylko odnajdywanie linków, lecz udzielenie precyzyjnych odpowiedzi. Pytania do niego moŜna formułować w języku naturalnym, równieŜ w takiej formie podawane są odpowiedzi: są to cytaty pochodzące ze stron internetowych. KtoCo korzysta ze zbudowanej przez jego wydawcę bazy ontologii, zawierającej w momencie uruchomienia serwisu w 2009 roku ponad 800 tysięcy faktów i uwzględniającej powiązania semantyczne istniejące pomiędzy nimi4. Wyszukiwarki przeszukujące zawartość sieci semantycznej Wyszukiwarki przeszukujące zawartość sieci semantycznej nie analizują znaczenia stron WWW, lecz przeszukują opisy dokonane przez twórców dokumentów i odwołania do ontologii wskazanych w nagłówkach plików RDF. Oglądają zatem reprezentację semantyczną dokumentu, nie dokonują zaś 4

Zwiastun Web 3.0? Pierwsza polska wyszukiwarka semantyczna, http://webinside.pl/news-5831-zwiastunweb-3-0--pierwsza-polska-wyszukiwarka-semantyczna.html [dostęp 10.12.2010]

Opracowanie dr inŜ. Joanna Papińska-Kacperek

15

Wyszukiwanie informacji w Internecie

przekładu jego treści. Pozwolą zatem lepiej wyselekcjonować dokumenty zawierające podane terminy w określonej kategorii, dzięki czemu na liście wyników uŜytkownik nie dostanie odnośników do dokumentów, które będą zupełnie bezwartościowe. Obecnie jedną z przyczyn niezbyt poprawnego działania wyszukiwarek przeszukujących sieć semantyczną jest mała liczba stron opisanych metadanymi. Najlepiej działającymi były lub są: Swoogle (utworzony w 2004 roku w projekcie Uniwersytetu Baltimore, 10 tys. ontologii), Sindice, Falcon, SWSE oraz Watson. Wyniki jakie z nich uzyskamy są mało czytelne dla ludzi, bo zawierają linki do dokumentów RDF lub OWL i dedykowane są dla algorytmów np. agentów. Wszystkie wyszukiwarki semantyczne są w fazie testów, w wersji beta lub jako prototypy aplikacji. Niestety nie działają jeszcze poprawnie.

Formułowanie zapytań do wyszukiwarek Web 1.0 Wyszukiwarki dysponują róŜnymi rodzajami zapytań, jednak pewne zasady są wspólne dla wszystkich narzędzi wyszukujących. Ich znajomość przyspieszy

wyszukiwanie

właściwych

treści.

Przedstawione

zapytania

niejednokrotnie moŜna ze sobą łączyć co daje jeszcze lepsze efekty. Wyszukiwanie według słów kluczowych Najprostszym sposobem zadawania pytania jest wpisanie poszukiwanego wyrazu

lub

wyrazów

określających

poŜądaną

przez

nas

informację.

Wyszukiwarka lub katalog wyświetli nam listę stron, które zawierają poszukiwane słowo lub słowa, np słowo programista. MoŜe to jednak spowodować wyświetlenie listy zawierającej ponad 1000 adresów, której przejrzenie moŜe stać się czasochłonne. MoŜna uŜywać wielu słów kluczowych, ale nie naleŜy przesadzać z ich liczbą i podać je w dobrej kolejności. Wyniki wyszukiwania programowanie komputerów, będą inne niŜ komputerów programowanie. Niektóre narzędzia i tak nie „czytają” długich zapytań, np. Google bierze pod uwagę tylko 10 słów i ignoruje pewne typowe wyrazy (na przykład angielskie „the” i „and”), a takŜe

Opracowanie dr inŜ. Joanna Papińska-Kacperek

16

Wyszukiwanie informacji w Internecie

niektóre pojedyncze cyfry i litery, poniewaŜ spowalniają one wyszukiwanie, nie zapewniając lepszych wyników. Google informuje szczegółowo o wykluczonych często uŜywanych wyrazach na stronie wyników pod polem wyszukiwania. Wyszukiwanie frazy Wpisanie do wyszukiwarki dwóch słów np. program nauczania spowoduje wyświetlenie stron zawierających słowo program i witryn zawierających wyraz nauczania oraz tych, które zawierają oba słowa. Gdy oba wyrazy umieścimy w cudzysłowie, otrzymamy listę zawierającą adresy stron, które w swoim tekście posiadają dwa słowa obok siebie i to w poŜądanej kolejności. Wyszukiwanie rozmyte Wyszukiwanie rozmyte polega na uwzględnieniu róŜnych form danego wyrazu. W pytaniu podajemy początek wyrazu, a pozostałą część zastępujemy znakiem ? lub *. Znak ? zastępuje tylko jedną literę, zaś * zastępuje większą liczbę znaków, np. poczt*. Jak widać w podanym przykładzie szukamy ogólnie stron na temat poczty. Gdy wpiszemy słowo poczta to wyszukiwarka pominie strony zawierające wyrazy poczty, pocztowy itp. W Google znak „~” oznacza synonim, czyli np. wpisując ~program znajdziemy w wynikach równieŜ słowo software. Konieczność występowania wyrazu lub nie Inną moŜliwość dają nam dwa znaki + i – koniecznie ze spacją przed znakiem. Pierwszy wymusza wyświetlenie stron, które muszą zawierać wyraz poprzedzony +. Drugi zaś wyklucza strony zawierające dane słowo. Czasem przydaje się, gdy słowo ma kilka znaczeń. Np. gdy szukamy informacji o protokołach sieciowych moŜemy podać zapytanie: protokół –dyplomacja. A zapytanie Wojna Światowa +I zapewni nam informacje o I Wojnie. Operatory zaawansowane Zastosowanie ich ogranicza wyniki wyszukiwania do stron z określonych krajów lub domen. Domenę moŜna określić dodając do wyszukiwanego hasła

Opracowanie dr inŜ. Joanna Papińska-Kacperek

17

Wyszukiwanie informacji w Internecie

operator ,,site” Operator ten działa w przypadku domen sieciowych i domen najwyŜszego poziomu. Przykłady: •

music site:pl,



lemur site:org,



rekrutacja site:edu.pl,



ranking site:google.com MoŜemy jeszcze ograniczać:



miejsce,

gdzie

mają

się

znajdować

wyszukiwane

hasła

– np. w tytule: intitle:"Podstawy informatyki", allintitle:Podstawy informatyki, lub w adresie URL inurl: algorytmy struktury, allinurl: algorytmy struktury •

typ pliku



link wewnątrz dokumentu

filetype:pdf OR filetype:ppt "boolean searching" link: ki.uni.lodz.pl

Opracowanie dr inŜ. Joanna Papińska-Kacperek

18

Wyszukiwanie informacji w Internecie

Bibliografia [1]

Alesso H. P., Smith C. Thinking on the Web: Berners-Lee, Gödel, and Turing, Wiley-Interscience, 2008.

[2]

Antoniou G., Van Harmelen F. A semantic Web primer, The MIT Press, 2008

[3]

Bergman M. K., The Deep Web: Surfacing Hidden Value, "Journal of Electronic Publishing", Volume 7, Issue 1, 08.2001.

[4]

Berners-Lee T., Hendler J., Lassila O., The Semantic Web: A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities, "Scientific American" 05/2001.

[5]

Breitman K., Casanova M., Truszkowski W., Semantic Web: concepts, technologies and applications, Springer 2007.

[6]

Gontar B., Papińska-Kacperek J. Semantyczne wyszukiwarki internetowe, w: ACTA UNIVERSITATIS LODZIENSIS. FOLIA OECONOMICA, Uniwersytet Łódzki, 2011 http://dspace.uni.lodz.pl:8080/xmlui/bitstream/handle/123456789/803/165179.pdf?sequence=1.

[7]

Gulli A. Signorini A. The indexable web is more than 11.5 billion pages, Proceeding WWW 2005.

[8]

Kashyap V., Bussler C., Moran M. The Semantic Web: semantics for data and services on the Web, Springer, 2008.

[9]

Lewandowski D. Web searching, search engines and Information Retrieval, Information Services & Use 25(2005)3.

[10] Lewandowski D. Mayr P. Exploring the Academic Invisible Web, Library Hi Tech, 24 (2006) 4. ss. 529-539. [11] Papińska-Kacperek J. Wyszukiwanie informacji w internecie, materiały dla studentów, 2006 http://www.ki.uni.lodz.pl/~jpapkac/podstawy/wyszukiwanie.pdf [12] Papińska-Kacperek J. Gontar B. Wyszukiwarki semantyczne, w: Wiedza i komunikacja w innowacyjnych organizacjach, Katowice, red. M. Pańkowska, Wydawnictwo UE, Katowice, 2011, ss. 134-149. [13] Sherman C., Price G. The invisible Web: uncovering information sources search engines can't see Information Today, Inc, 2001. [14] Spivak N. (2007), How the WebOS Evolves?, http://novaspivack.typepad.com/nova_spivacks_weblog/2007/02/steps_towards_a .html [dostęp 10.12.11] [15] Społeczeństwo informacyjne, red. Papińska-Kacperek J., PWN 2008. [16] Wyniki wyszukiwania Google a satysfakcja uŜytkowników, raport http://www.bluerank.pl/pdfs/Raport%20%20wyniki%20wyszukiwania%20Google%20a%20satysfakcja%20uzytkownikow.pdf

2008.

Opracowanie dr inŜ. Joanna Papińska-Kacperek

19

Wyszukiwanie informacji w Internecie

Spis treści Wyszukiwanie przed epoką Web 3.0.............................................................................................. 3 Katalogi stron internetowych...................................................................................................... 3 Wyszukiwarki ............................................................................................................................. 4 Metawyszukiwarki i metabazy ................................................................................................... 7 Invisible Web.............................................................................................................................. 8 Wyszukiwanie w czasach zbyt mocnej promocji strony............................................................... 10 Wyszukiwanie w sieci semantycznej............................................................................................ 12 Wyszukiwarki analizujące znaczenie........................................................................................ 14 Wyszukiwarki przeszukujące zawartość sieci semantycznej.................................................... 15 Formułowanie zapytań do wyszukiwarek Web 1.0 ...................................................................... 16 Wyszukiwanie według słów kluczowych ................................................................................. 16 Wyszukiwanie frazy ................................................................................................................. 17 Wyszukiwanie rozmyte............................................................................................................. 17 Konieczność występowania wyrazu lub nie ............................................................................. 17 Operatory zaawansowane ......................................................................................................... 17 Bibliografia................................................................................................................................... 19 Spis treści...................................................................................................................................... 20

Opracowanie dr inŜ. Joanna Papińska-Kacperek

20