Rola i znaczenie syntezy logicznej w eksploracji danych dla potrzeb telekomunikacji i medycyny

Tadeusz Łuba*, Grzegorz Borowik*, Karol Kowalski*, Paweł Pecio*, Cezary Jankowski*, Michał Mańkowski** Rola i znaczenie syntezy logicznej w eksplorac...
Author: Amalia Wójcik
17 downloads 1 Views 196KB Size
Tadeusz Łuba*, Grzegorz Borowik*, Karol Kowalski*, Paweł Pecio*, Cezary Jankowski*, Michał Mańkowski**

Rola i znaczenie syntezy logicznej w eksploracji danych dla potrzeb telekomunikacji i medycyny Metody syntezy logicznej są wykorzystywane głównie do optymalizacji systemów cyfrowych przetwarzających sygnały binarne. Ich podstawowym zadaniem jest poprawa implementacji oraz możliwości odwzorowania systemów w różnych technologiach. Można jednak wykazać, że wiele metod syntezy logicznej, a w szczególności tych wykorzystywanych do optymalizacji kombinacyjnych układów logicznych, może być z powodzeniem zastosowanych w typowych zadaniach przetwarzania i wyszukiwania informacji, odkrywania/eksploracji wiedzy, optymalizacji baz danych, a także w dziedzinie systemów ekspertowych, maszynowego uczenia się czy sztucznej inteligencji. Przez eksplorację danych, znaną również pod nazwą odkrywania wiedzy w bazach danych, rozumie się proces automatycznego pozyskiwania z baz danych znaczących, ale dotychczas nieznanych informacji. Dlatego te informacje określa się jako „ukryte”, a celem jest te informacje wyekstrahować. W wyniku eksploracji danych można na pewnym poziomie abstrakcji: zdiagnozować pacjenta, przeprowadzić sondaż, np. przed wyborami prezydenckimi, klasyfikować dane internetowe czy podjąć decyzję o przyznaniu bądź odrzuceniu kredytu. Jednym z ważniejszych zastosowań algorytmów eksploracji danych w telekomunikacji jest wykrywanie anomalii w systemach i sieciach telekomunikacyjnych. Ponieważ decyzja o wykryciu anomalii jest podejmowana na podstawie kombinacji reguł decyzyjnych wygenerowanych przez algorytm dla danych treningowych, algorytm jest typową procedurą uczenia się maszyn. System tworzy bazę wiedzy, zawierającą wzorce analizowanych anomalii, a następnie – przy użyciu algorytmu podejmowania decyzji i klasyfikacji – klasyfikuje bieżące dane. Charakterystycznym przykładem danych treningowych jest baza dla klasyfikacji poczty elektronicznej [21], która zawiera 58 042 rekordów reprezentowanych przez 64 atrybuty, natomiast celem algorytmu jest uzyskanie reguł decyzyjnych klasyfikujących dane zgodnie z następującymi warunkami: y_spam, n_spam, other itd. Innym zastosowaniem algorytmów eksploracji danych jest wsparcie diagnostyki medycznej w przypadku różnych chorób. Wtedy głównym zadaniem algorytmu jest indukcja reguł decyzyjnych, które są obliczane na podstawie wyników badań medycznych zgromadzonych w bazie danych pacjentów. Wygenerowane reguły decyzyjne (zwane również klasyfikatorami) umożliwiają diagnozowanie nowego pacjenta. Typowym przykładem bazy danych oraz jej analizy jest Wisconsin Breast Cancer Database (źródło: dr William H. Wolberg, University of Wisconsin Hospital, Madison, Wisconsin, USA). Diagnoza raka piersi dla nowego pacjenta jest w niej realizowana za pomocą bazy danych o dziewięciu atrybutach i zgromadzonej dla 699 pacjentek [26]. Systemy decyzyjne i kombinacyjne układy logiczne są bardzo podobne. System decyzyjny jest zwykle opisany przez tablicę decyzyjną, natomiast kombinacyjny układ logiczny – przez tablicę prawdy. Atrybuty warunkowe systemu decyzyjnego odpowiadają * Instytut Telekomunikacji Politechniki Warszawskiej ** Instytut Radioelektroniki, Wydział Elektroniki i Technik Informacyjnych Politechniki Warszawskiej, e-mail: [email protected], [email protected]

110

zmiennym wejściowym układu logicznego, a atrybuty decyzyjne – zmiennym wyjściowym. Stąd wiele pojęć z tych obydwu obszarów może być wzajemnie na siebie odwzorowanych, a podobieństwo systemów decyzyjnych oraz układów logicznych umożliwia wykorzystanie specjalistycznych metod syntezy logicznej w dziedzinie eksploracji danych. Na przykład zadanie redukcji danych w systemach informacyjnych jest rozwiązywane przez minimalizację liczby cech (atrybutów/parametrów), a następnie usunięcie nadmiarowych obiektów. Podobnym zadaniem w dziedzinie syntezy logicznej jest redukcja argumentów. Innym zagadnieniem w eksploracji danych jest podejmowanie decyzji na podstawie wcześniej zgromadzonych danych. Polega ono na uogólnianiu wiedzy oraz indukowaniu reguł decyzyjnych. W wyniku indukcji otrzymuje się zbiór reguł logicznych, który umożliwia podejmowanie decyzji nie tylko dla obiektów należących do bazy pierwotnej, dla której przeprowadzono obliczenia, ale przede wszystkim dla nowych obiektów do niej nienależących. Jest to bardzo ważne w przypadku zadań maszynowego uczenia się. Zagadnieniem analogicznym do indukcji reguł z dziedziny eksploracji danych jest zagadnienie minimalizacji funkcji logicznych z dziedziny syntezy logicznej. Ze względu na inne interpretacje i  aplikacje, zagadnienia te wydają się zupełnie różne, aczkolwiek jest to stwierdzenie błędne. Problemem badawczym w zasygnalizowanych zadaniach jest osiągnięcie dużej szybkości obliczeń i możliwość przetwarzania coraz większych baz danych. W obliczeniach tych ogromną rolę mogą odegrać zaawansowane algorytmy syntezy logicznej, stosowane do tej pory tylko do projektowania układów i systemów cyfrowych [10]. Celem artykułu jest wskazanie i omówienie możliwości zastosowania zaawansowanego algorytmu syntezy logicznej – algorytmu uzupełnienia funkcji boolowskich – w typowych zadaniach eksploracji danych, takich jak: ekstrakcja cech, indukcja reguł decyzyjnych i wielu innych. W dalszej części artykułu przedstawiono podstawowy algorytm uzupełnienia funkcji boolowskich i omówiono możliwości optymalizacji algorytmu uzupełnienia. Kolejny rozdział pokazuje, w jaki sposób można zredukować cztery podstawowe algorytmy eksploracji danych do algorytmu uzupełnienia. W końcowej części artykułu przedstawiono potencjalne możliwości zastosowania algorytmów syntezy logicznej do eksploracji danych w telekomunikacji oraz praktyczne zastosowanie szybkiego algorytmu dyskretyzacji danych onkologicznych.

Algorytm uzupełnienia funkcji boolowskich Podstawowymi pojęciami z dziedziny eksploracji danych są macierz porównań oraz funkcja rozróżnialności. Znajdują one zastosowanie m.in. w algorytmach ekstrakcji cech, dyskretyzacji danych czy indukcji reguł decyzyjnych. Podstawowym zadaniem algorytmów eksploracji danych jest znajdowanie implikantów prostych funkcji rozróżnialności. Jak powszechnie wiadomo, znalezienie implikantów prostych jest problemem o niewielomianowej złożoności obliczeniowej [9, 15] i polega na przekształ-

PRZEGLĄD TELEKOMUNIKACYJNY  ROCZNIK LXXXVII  WIADOMOŚCI TELEKOMUNIKACYJNE  ROCZNIK LXXxIII  nr 5/2014

ceniu koniunkcyjnej postaci normalnej funkcji rozróżnialności do dysjunkcyjnej postaci normalnej. Znalezienie wszystkich implikantów prostych monotonicznej funkcji boolowskiej może zostać zredukowane do obliczenia uzupełnienia tej funkcji, gdzie uzupełnienie redukuje się do obliczenia pokrycia kolumnowego macierzy binarnej [6]. Twierdzenie [6]. Każdy wiersz i macierzy C – uzupełnienia macierzy M – odpowiada pokryciu kolumnowemu L macierzy M, gdzie j ∈ L wtedy i tylko wtedy, gdy Cij = 1. Siła algorytmu kryje się w procedurze rozkładu Shannona monotonicznej funkcji f. Wtedy: f = x j f xj + f xj . Zaproponowane podejście bardzo przyspiesza obliczenia, a wydajna reprezentacja algorytmu w pamięci operacyjnej maszyny obliczeniowej umożliwia osiągnięcie wyników, które nie mogą być osiągnięte przy użyciu innych publikowanych metod i systemów. Macierz porównań jest rozkładana rekursywnie, aż do wystąpienia szczególnych postaci uzyskanych kofaktorów. Obliczenie kofaktorów rozpoczyna się od wyboru zmiennej rozkładu. Odpowiedni wybór zmiennej ma istotne znaczenie dla redukcji obliczeń. Wybór zmiennej przeprowadza się według następującego algorytmu. 1. Wybieramy wiersz macierzy porównań z największą liczbą zer. 2. W wybranym wierszu wybieramy zmienne, które mają jedynkę. 3. Spośród wybranych w punkcie 2. zmiennych wybieramy tę, która ma najwięcej jedynek w swojej kolumnie. Proces rozkładu na kofaktory realizuje się według tej samej zasady, aż do uzyskania kofaktorów, które zawierają tylko jeden wiersz. W następnym etapie obliczeń otrzymane kofaktory są uzupełniane. 1. Jeżeli którykolwiek z kofaktorów zawiera wiersz samych zer, jego uzupełnieniem jest zbiór pusty. 2. Jeżeli na którymś z poziomów rekursji w kolumnie odpowiadającej wybranej zmiennej rozdzielającej są tylko jedynki, to kofaktor jedynkowy takiej macierzy też jest pusty. Natomiast w przypadku otrzymania kofaktora, który jest zbiorem pustym (macierz nie zawiera żadnych wierszy), jego uzupełnieniem jest tautologia (wiersz samych zer). 3. Jeżeli kofaktor zawiera tylko jedną jedynkę, jego uzupełnienie jest identyczne jak kofaktor. 4. Jeżeli kofaktor zawiera więcej niż jedną jedynkę, jego uzupełnienie zawiera tyle wierszy, ile jest jedynek w  kofaktorze, przy czym wszystkie wiersze mają jedynkę (pozostałe pozycje zera) na pozycjach odpowiadających kolejnym jedynkom kofaktora. Po obliczeniu uzupełnień na poszczególnych liściach drzewa rozkładu wyniki cząstkowe są scalane zgodnie ze wzorem:

działanie algorytmu dla dużych macierzy rozróżnialności. W tym celu rozważono macierz losową o zadanym stosunku p jedynek w macierzy do rozmiaru macierzy, liczby kolumn m oraz liczby wierszy n. 1. W przypadku, w którym macierz losowa o liczbie kolumn m i prawdopodobieństwie p występowania jedynek ma tylko jeden wiersz, najbardziej prawdopodobne uzupełnienie zawiera mp wierszy. 2. Jeżeli prawdopodobieństwo wystąpienia pustego wiersza w macierzy jest większe od 1/2, to jej uzupełnienie nie zawiera żadnego wiersza. 3. Jeżeli dochodzi do podziału macierzy, jest wybierana zmienna rozdzielająca taka, że liczba jedynek jest równa pn. Dzięki temu macierz powstała w wyniku przepisania wierszy z zerami ma parametry p:=p; m:=m–1; n:=n(1–p) oraz macierz powstała w wyniku wyzerowania kolumny ma parametry p:=p; m:=m–1; n:=n. W obu przypadkach ignoruje się kolumnę rozdzielającą, ponieważ nie ma ona wpływu na liczbę reduktów. Na rys. 1 i 2 przedstawiono wyniki symulacji przeprowadzonej zgodnie z założeniami. Można z nich wywnioskować, że dla macierzy o małym stosunku jedynek w macierzy czas obliczeń może znacznie wzrosnąć po podzieleniu jej na mniejsze fragmenty. Z kolei dla macierzy o dużej koncentracji jedynek, ze względu na małe nachylenie wykresu, wejściową macierz należałoby podzielić na bardzo dużo części, żeby uzyskać jakikolwiek zauważalny zysk w czasie obliczeń. W każdym przypadku trzeba pamiętać o problemie łączenia wyników w całość, co może okazać się również dużym utrudnieniem.

„„Rys. 1. Zależność liczby reduktów od liczby wierszy dla różnej liczby kolumn w macierzy

f = x j f xj + f xj .

Dziel i rządź W  celu przyspieszenia obliczeń dla istniejącej macierzy porównań, można zastanowić się nad stosunkowo standardowym podejściem „dziel i rządź”. W tym przypadku miałoby to polegać na liczeniu uzupełnień dla części macierzy porównań osobno, a następnie połączeniu wyników niezależnych obliczeń w końcowy rezultat. Specyfika algorytmu uzupełnienia funkcji boolowskich powoduje, że czas jego wykonywania jest ściśle związany z czasem usuwania nadmiarowych reduktów. Nadmiarowe redukty są usuwane zgodnie z własnością pochłaniania: a + ab = a, a zadanie jest realizowane przez porównanie każdej pary reduktów. Odbywa się to ze złożonością kwadratową, zatem jest ważne badanie, w jaki sposób liczba wierszy w tablicy porównań wpływa na liczbę końcowych reduktów (i tym samym na czas obliczeń). W  celu przeprowadzenia takiego badania zaimplementowano model opierający się na kilku założeniach, symulujących

„„Rys. 2. Zależność liczby reduktów od liczby wierszy dla różnej koncentracji jedynek w 30-kolumnowej macierzy

PRZEGLĄD TELEKOMUNIKACYJNY  ROCZNIK LXXXVII  WIADOMOŚCI TELEKOMUNIKACYJNE  ROCZNIK LXXxIII  nr 5/2014

111

Indukcja reguł decyzyjnych

„„Tabela 1. Porównanie czasów obliczeń (na podstawie [4])

Indukcja reguł decyzyjnych jest jednym z  najważniejszych zadań ROSE2 RSES/ROSETTA w eksploracji danych. Reguły decyzyjne indukowane z danych uczących są House 17 232 1s 1s 187 ms 4 używane do klasyfikowania nowych obiektów. Przez nowe obiekty rozumie Breast-cancerdiscerns 10 699 2s 823 ms 27 się takie, które nie służyły do indukcji. wisconsin missing* Znany jest ich opis za pomocą wartoout of ści atrybutów, natomiast celem klaKAZ 22 31 memory** 70 min 234 ms 5574 syfikowania jest przyporządkowanie (30 min) obiektu do odpowiedniej klasy decydiscerns out of memory zyjnej. Jeżeli dla klasyfikowanego Trains 33 10 6 ms 689 missing (5 h 38 min) obiektu znana jest ponadto jego rzekr-vs-kp 37 3196 16 s 1 m 31 s 1 m 15 s 4 czywista klasyfikacja, to nazywa się go przykładem testowym, gdyż możliwe Agaricusdiscerns jest wtedy porównanie proponowanej lepiota23 8124 29 min 4 m 47 s 507 missing decyzji klasyfikacyjnej z rzeczywistą. mushroom Klasyfikowanie obiektów opiera się na out of out of memory dostosowaniu opisu obiektu do części Urology 36 500 memory 42 s 741 ms 23 437 (12 h) warunkowych reguł decyzyjnych. (2h 29 min) Problem znalezienia minimalnediscerns out of memory Audiology 71 200 14 s 508 ms 37 367 go zbioru reguł, który pokrywa zbiór missing (1 h 17 min) przykładów i  poprawnie je klasyfiout of memory discerns kuje, jest NP-zupełny. W dowodach Dermatology 35 366 3 m 32 s 143 093 missing (3 h 27 min) wykorzystuje się transformację tego discerns out of memory problemu do problemu minimalneLung-cancer 57 32 111 h 57 m 3 604 887 missing (5 h 20 min) go pokrycia zbioru [1, 6]. Najbardziej znane z dotychczas zaproponowa* przerwane obliczeń z powodu występowania wartości nieokreślonych nych opierają się na zasadzie gene** brak pamięci operacyjnej rowania kolejnych pokryć (Sequential covering). Polegają one na uczeniu się pojedynczej reguły, Zastosowanie algorytmu usuwaniu przykładów, które ona pokrywa i powtarzaniu procesu uzupełnienia dla pozostałych przykładów. W rezultacie powstaje zbiór reguł w zadaniach eksploracji danych pokrywających rozważany zbiór przykładów. Inną metodąa indukcji reguł zastosowano w algorytmie LEM2 który zaproponował Ekstrakcja cech Grzymala-Busse [7]. Dla binarnego systemu decyzyjnego z  tabeli 2 otrzymuje Do zadań określanych mianem redukcji wiedzy należy uproszsię przy użyciu procedury LEM2 z programu RSES2 [25] wynik czenie systemu decyzyjnego z punktu widzenia minimalnego zbioru cech/atrybutów zachowujących zdolności klasyfikacyjne następujący: (a2,1) & (a3,0) & (a1,0) & (a4,0) → (d,1), systemu [16]. Redukcja wiedzy w systemach decyzyjnych polega (a2,1) & (a1,1) & (a4,0) & (a3,0) & (a5,0) → (d,1), na wyznaczaniu tak zwanych reduktów oraz ewentualnie usuwa(a2,1) & (a1,1) & (a3,1) → (d,1), niu nadmiarowych obiektów. Wybór podzbioru atrybutów odgrywa (a ,0) & (a2,1) & (a3,0) & (a4,1) & (a5,0) → (d,1), ważną rolę w odkrywaniu wiedzy – jest podstawą do wydajniejszej 1 (a1,1) & (a2,1) & (a3,0) & (a4,0) & (a5,1) → (d,0), klasyfikacji, predykcji i budowy modeli przybliżonych [20]. (a1,0) & (a2,1) & (a4, 1) & (a5,1) → (d,0), Obliczanie reduktów można sprowadzić do wyznaczenia impli(a ,0) & (a1,0) & (a2,0) → (d,0). kantów prostych funkcji rozróżnialności [4], a przeprowadzone 4 eksperymenty potwierdziły niezwykłą skuteczność ekstrakcji cech przy zastosowaniu algorytmu uzupełnienia funkcji boolowskich Stosując system ESPRESSO (typowy program minimalizacji (tabela 1). Interesującymi bazami danych, dla których przeprofunkcji boolowskich), dla decyzji o wartości 1, otrzyma się wyrawadzono obliczenia, są bazy medyczne, np. baza audiology czy żenie logiczne: baza dermatology [26]. W pierwszej z nich liczba obiektów jest „„Tabela 2. Binarny system d = a1a3 + a1a4a5 + a2a5, równa 200 i zawiera wyniki badań choroby związanej ze słuchem, a dla decyzji o wartości 0: sklasyfikowanej do 24 różnych klas. Dla dermatology database decyzyjny d = a2 + a1a3a5 + a4a5. a1 a2 a3 a4 a5 d istnieje 366 instancji oraz 34 atrybuty. Porównano czas obliczeń metody ekstrakcji cech z zastosowaniem algorytmu uzupełnie1 1 1 0 0 0 1 Wyrażenia otrzymane z systemu nia funkcji boolowskich do czasu obliczeń systemów eksploracji 2 0 1 0 0 0 1 ESPRESSO można zapisać w kondanych. Porównanie przeprowadzono również dla znanego na 3 1 1 1 0 1 1 wencji reguł decyzyjnych: świecie przykładu prostej bazy danych house [26], ale istotnego 4 0 1 0 0 1 1 (a 1) & (a ,1) → (d,1), o tyle, że ma ona wiele atrybutów o wartościach nieokreślonych. 1, 3 5 0 1 0 1 0 1 Jest to binarny przykład bazy danych zgromadzonych przed (a1,0) & (a4,0) & (a5,1) → (d,1), 6 0 1 1 1 1 0 wyborami prezydenckimi w Stanach Zjednoczonych. Kolejnym (a2,1) & (a5,0) → (d,1), przykładem jest przykład problemu transportowego trains [26]. 7 0 0 0 0 0 0 (a2,0) → (d,0), W tym przypadku nie jest możliwe uzyskanie wyniku za pomocą 8 1 1 0 0 1 0 oprogramowania RSES, ROSETTA czy ROSE2 [23, 24, 25]. Dla 9 0 1 0 1 1 0 (a1,1) & (a3,0) & (a5,1) → (d,0), porównania metoda zbudowana na algorytmie syntezy logicznej 10 0 0 1 0 0 0 (a ,1) & (a ,1) → (d,0), podaje wynik obliczeń w czasie 6 ms. 4 5 Baza danych

112

Liczba atrybutów

Liczba obiektów

Oprogramowanie

Metoda uzupełnienia

Liczba reduktów

PRZEGLĄD TELEKOMUNIKACYJNY  ROCZNIK LXXXVII  WIADOMOŚCI TELEKOMUNIKACYJNE  ROCZNIK LXXxIII  nr 5/2014

W celu porównania wyniku procedury LEM2 do wyniku procedury ESPRESSO uzyskane formuły z LEM2 można zapisać w konwencji wyrażeń boolowskich: d = a 1a 2a 3a 4 + a 1a 2a3a 4a 5 + a1a 2a 3 + a 1a 2a3a 4a 5 d = a 1a 2a 3a 4a 5 + a 1a 2a 4a 5 + a1a 2a 4. W porównaniu do procedury LEM2 system ESPRESSO umożliwia osiągnięcie wyników, które zawierają – w sensie zbiorów – wyniki algorytmu eksploracji danych. Świadczy to o tym, że wynik osiągnięty za pomocą metod syntezy logicznej jest „bardziej ogólny”. Można się zatem zastanowić, w jaki sposób – wprowadzając do procesu wnioskowania boolowskiego procedury syntezy logicznej – algorytm uogólniania reguł decyzyjnych sprowadzić do stosowanej w metodzie ESPRESSO [6] procedury ekspansji i uzupełniania. Wstępne prace autorów wykazały, że procedury ekspansji i uzupełniania można przystosować do zadań eksploracji danych w algorytmie wykonującym następujące obliczenia. 1. Wyznaczenie macierzy rozróżnialności dla obiektu ui ustalonej klasy decyzyjnej. 2. Obliczenie wszystkich uogólnionych reguł obiektu ui. 3. Obliczenie rodziny minimalnych uogólnionych reguł klasy decyzyjnej Dk. 4. Wyznaczenie tablicy pokryć klasy Dk. Chcąc uzyskać minimalny zbiór reguł (niekoniecznie o najmniejszej liczności) reprezentujących klasę Dk. należy utworzyć tablicę pokryć (TP). Tablicą pokryć jest binarna tablica o liczbie kolumn n (n jest licznością rodziny R(Dk )) i liczbie wierszy równej k (k– liczba obiektów klasy Dk). Element TP(i,j) tej tablicy przyjmuje wartość 1, gdy reguła ri jest równa wartości tego atrybutu w obiekcie ui, w przeciwnym przypadku 0. 5. Obliczenie minimalnego zbioru uogólnionych reguł klasy Dk. Minimalny zbiór uogólnionych reguł reprezentujących (pokrywających) klasę Dk można wyznaczyć, obliczając minimalne pokrycie kolumnowe TP. Z powyższych rozważań wynika, że zadanie indukcji reguł decyzyjnych ustalonej klasy Dk jest analogiczne do zadania minimalizacji funkcji boolowskiej f = (F, R), w której wektory zbioru F odpowiadają obiektom klasy Dk, a macierzą rozróżniającą jest – tworzona z macierzy R – macierz blokująca [6]. Złożoność obliczeniową tego problemu można oszacować złożonością obliczeniową zadania minimalizacji funkcji boolowskiej. Obliczeniem decydującym o eksplozji kombinatorycznej tego problemu jest zatem obliczenie wszystkich pokryć kolumnowych tablicy pokryć. O złożoności tego problemu decyduje szybko rosnąca (ze wzrostem liczby atrybutów) liczność rodziny minimalnych reguł klasy Dk. Zatem obliczenia uogólnionych reguł decyzyjnych dla rzeczywistych baz danych muszą być – przynajmniej dla tablicy pokrycia – realizowane algorytmami heurystycznymi. Skuteczna w redukcji atrybutów procedura uzupełniania (Complement) może być natomiast zastosowana głównie do obliczania zbioru minimalnych reguł dla pojedynczych obiektów ui. Należy jednak podkreślić, że jest to nowa strategia obliczeniowa, której istotą jest przesunięcie algorytmów heurystycznych na wyższy poziom obliczeń.

Dyskretyzacja Głównym problemem w  realizacji systemów eksploracji danych jest efektywna dyskretyzacja danych liczbowych (numerycznych) dla atrybutów warunkowych. Na przykład atrybuty bazy danych Indian Pima Database Diabetes [26] dotyczą: liczby przebytych ciąży, stężenia glukozy w osoczu w dwugodzinnym doustnym teście tolerancji glukozy, ciśnienia rozkurczowego (mm Hg), grubości fałdu skóry w tricepsie (mm), dwugodzinnego poziomu insuliny w surowicy (µU/ml), wskaźnika masy ciała (waga w kg /(wzrost w m)2), funkcji rodowodu cukrzycy, wieku, oraz klasy decyzyjnej (0 lub 1). Większość z tych cech ma wartości numeryczne, więc dla właściwej analizy tej bazy danych należy te wartości poddać kwantyzacji. Z podobnym problemem mamy

do czynienia w klasyfikacji poczty elektronicznej (e-mail), gdzie rekordy charakteryzujące różne parametry sieciowe, wykorzystywane do analizy i wykrywania anomalii, często są podane jako wartości numeryczne. Podstawowa metoda dyskretyzacji danych polega na wyznaczaniu przedziałów wartości danych numerycznych, które docelowo reprezentują atrybuty dyskretne [9]. Zakładane przedziały uzyskane dla proponowanego zestawu cięć są następnie analizowane w celu uzyskania minimalnego zbioru cięć różnicującego obiekty wyróżnionych klas decyzyjnych. Zadanie to można sprowadzić do wyboru minimalnego zbioru cięć przy użyciu transformacji monotonicznej funkcji boolowskiej w postaci CNF do postaci DNF. Niech A będzie systemem decyzyjnym podanym w tabeli 3, a przedziały wartości atrybutów wynoszą odpowiednio: r(ut, a) ∈ [1;4], r(ut, b)∈ [0;2]. Z tabeli 3 wynika, że wartości atrybutów dla podanych obiektów U wynoszą:

ρ(uj, a)∈{1,6; 1,8; 2,0; 2,6; 2,8; 3,2}, ρ(uj, b)∈{0,25; 0,4; 0,5; 1,0; 1,5}.

„„Tablela 3. Przykładowy system decyzyjny

Dyskretyzacja systemu polega na A a b d konstrukcji podziałów P dla poszczegól2,6 1,5 0 u1 nych przedziałów wartości atrybutów V. 2,0 0,25 0 u2 Następnie rzeczywista wartość atrybutu 1,6 1,0 1 u3 jest zamieniana na odpowiadający pod2,8 0,5 1 u 4 przedział, tzn. zawierający daną wartość 2,8 1,0 0 u atrybutu. 5 3,2 1,5 1 u6 W  pierwszym etapie konstrukcji 1,8 0,4 0 u7 proponuje się cięcia, będące zbiorem wszystkich reprezentantów podprze2,6 0,5 1 u8 działów wyznaczonych przez kolejne wartości obiektów rozpatrywanego atrybutu i różnych od jego wartości. Zakłada się, że podprzedziałowi odpowiada tylko jeden punkt, na przykład mogą to być średnie arytmetyczne wartości krańcowych podprzedziałów. Otrzymuje się wtedy następujący zbiór cięć: (a, 1,3), (a, 1,7), (a, 1,9), (a, 2,3), (a, 2,7), (a, 3,0), (a, 3,6), (b, 0,125), (b, 0,325), (b, 0,45), (b, 0,75), (b, 1,25), (b, 1,75). Można zauważyć, że pojedyncze cięcie definiuje nowy binarny atrybut warunkowy, np. dla atrybutu a i cięcia (a, 1,9) przyjmuje się wartość 0, jeśli ρ(uj, a) < 1,9, w przeciwnym przypadku wartość 1. Inaczej mówiąc, obiekty położone po różnych stronach wartości ρ = 1,9 są rozróżniane przez to cięcie. Stąd powyższy zbiór cięć może zostać zredukowany do: (a, 1,7), (a, 1,9), (a, 2,3), (a, 2,7), (a, 3,0), (b, 0,325), (b, 0,45), (b, 0,75), (b, 1,25), ponieważ pozostałe cięcia nie wykonują żadnego rozróżnienia. Stawiając sobie za zadanie otrzymanie minimalnego zbioru cięć rozróżniającego wszystkie obiekty systemu decyzyjnego, przeprowadza się drugi etap konstrukcji. Niech C będzie zbiorem proponowanych cięć, tzn. C = {ca1, ca2, ca3, ca4, ca5, cb1, cb2, cb3, cb4}, gdzie: ca1 = (a, 1,7), ca2 = (a, 1,9), ca3 = (a, 2,3), ca4 = (a, 2,7), ca5 = (a, 3,0), cb1 = (b, 0,325), cb2 = (b, 0,45), cb3 = (b, 0,75), cb4 = (b, 1,25). Niech χ(ui, uj) będzie funkcją rozróżnialności względem zbioru cięć, zdefiniowaną dla pary różnych obiektów (ui, uj) o różnych decyzjach. Na przykład aby rozróżnić obiekty u1 oraz u3, użyje się cięcia ca1 lub ca2 lub ca3 lub cb4. Wtedy: χ(u1, u3) = ca1 + ca2 + ca3 + cb4, χ(u1, u4) = ca4 + cb3 + cb4, χ(u1, u6) = ca4 + ca5, χ(u1, u8) = cb3 + cb4, χ(u2, u3) = ca1 + ca2 + cb1 + cb2 + cb3, χ(u7, u8) = ca2 + ca3 + cb2. Stąd, aby dokonać rozróżnienia pomiędzy wszystkimi obiektami o różnej decyzji, tworzy się wyrażenie boolowskie, będące

PRZEGLĄD TELEKOMUNIKACYJNY  ROCZNIK LXXXVII  WIADOMOŚCI TELEKOMUNIKACYJNE  ROCZNIK LXXxIII  nr 5/2014

113

koniunkcją powyższych formuł. Przekształcając otrzymaną formę w postaci iloczynu sum boolowskich do postaci sumy iloczynów, otrzymuje się wszystkie minimalne zbiory cięć spełniające założenia. Po przekształceniu wyrażenia otrzymuje się: ca3 ca5 cb3 + ca2 ca5 cb1 cb3 + ca1 ca5 cb2 cb3 + ca2 ca5 cb2 cb3 + ca3 ca4 cb3 cb4 + ca4 cb2 cb3 cb4 + ca2 ca4 cb1 cb3 cb4. Przykładowym zbiorem cięć jest więc {ca3, ca5, cb3}. Ostatecznie, przyjmując kodowanie podziałów: Pa = {[1; 2,3), [2,3; 3,0), [3,0; 4]} = {0, 1, 2} Pb = {[0; 0,75), [0,75; 2]} = {0, 1}, otrzymuje się dyskretny system decyzyjny zaprezentowany w tabeli 4, który po usunięciu nadmiarowych wierszy przyjmuje postać z tab. 5. Nietrudno zauważyć, że oblicze„„Tabela 4: System decyzyjny po dyskretyzacji nia mające na celu przekształcenie formuły CNF w DNF można przeproA a b d wadzić stosując – omówiony już wcześniej – algorytm uzupełnienia funkcji 1 1 0 u1 boolowskiej, który następnie został 0 0 0 u2 wykorzystany do obliczania reduktów 0 1 1 u3 tablic decyzyjnych. Jest to możliwe ze względu na fakt, ze wyrażenie logicz1 0 1 u4 ne w  postaci monotonicznej funkcji 1 1 0 u5 boolowskiej CNF może być repre2 1 1 u6 zentowane macierzą binarną. Wtedy proces przekształcania CNF do DNF 0 0 0 u7 redukuje się do procesu obliczenia 1 0 1 u8 minimalnych pokryć kolumnowych „„Tabela 5. Uproszczony tej macierzy. system z tabeli 4 Mimo ogromnej złożoności obliczeniowej, tak zorganizowany algorytm A a b d dyskretyzacji może znaleźć zastosowa1 1 0 {u1, u5} nie w zadaniach wyznaczania punktów 0 0 0 {u2, u7} odcięcia parametrów diagnostycznych niektórych chorób (patrz następny roz0 1 1 u3 dział). Oczywiście w  ogólnym przy1 0 1 {u4, u8} padku typowych numerycznych baz 2 1 1 u6 danych algorytm uzupełniania przekracza barierę złożoności obliczeniowej dopuszczalnej dla aktualnie stosowanych komputerów. Wtedy trzeba stosować odpowiednie algorytmy heurystyczne [8].

Zastosowania praktyczne Telekomunikacja i radiokomunikacja Eksploracja danych znajduje szerokie zastosowanie w telekomunikacji, w tym do wspomagania obserwacji ruchu w sieci oraz przy tworzeniu filtrów klasyfikujących wiadomości elektroniczne jako poprawne lub jako spam. W pracach [8, 14] przeprowadzono eksperymenty, mające zweryfikować przydatność algorytmów syntezy logicznej do stworzenia modułu filtru antyspamowego. Do eksperymentów wybrano bazę Spambase Data Set z repozytorium [26]. Zawiera ona 4601 instancji, z których 1813 (39,4%) stanowi spam. Tablica danych bazy Spambase nie jest całkowicie spójna – istnieją trzy pary sprzecznych obiektów. Każda wiadomość jest opisana 57 atrybutami numerycznymi oraz klasą decyzyjną („1” oznacza spam, a „0” poprawną wiadomość). Wśród cech znajduje się 48 opisujących częstość występowania pewnego słowa w wiadomości, 6 – częstość występowania pewnego znaku. Kolejne 2 określają odpowiednio średni i najdłuższy ciąg składający się tylko z wielkich liter. Ostatni atrybut stanowi sumaryczną liczbę wielkich liter w wiadomości. Trzeba podkreślić, że te cechy nie są wystarczające, aby stworzyć pełnowartościowy filtr antyspamowy. Klasyfikacja wiadomości jest bardzo złożonym procesem i takie odkrywanie wiedzy z tych danych może stanowić jedynie pewien moduł. Jednak dla

114

celów pokazowych wybrana baza stanowi wystarczające przybliżenie komercyjnie zbieranych danych. Eksperymenty wykazały, że zastosowanie nowych strategii obliczeniowych (omówionych w poprzednim rozdziale) poprawia parametr pokrycia (Accuracy) względem systemu RSES o ok. 3%. Innym zastosowaniem jest badanie propagacji fal radiowych. Zależy ona od wielu czynników. Są wśród nich zarówno te możliwe do uwzględnienia na etapie projektowania sieci, jak i takie, których nie udało się przewidzieć lub nie jest możliwe jednoznaczne określenie ich wpływu na planowaną transmisję. Czynniki te mogą być zarówno stałe w czasie i przestrzeni, jak i zmienne – występujące tylko przez określony czas bądź na określonym obszarze. Przykładowo, projektując linię radiową, bierze się pod uwagę ukształtowanie terenu bądź zalesienie, które uznaje się za niezmienne. Można teoretycznie ustalić wpływ zjawisk atmosferycznych na transmisję, ale nie jest się w stanie opisać ich wyrażeniem, od którego można by uzależniać parametry transmisji w czasie. Przyjmuje się określoną sprawność linii radiowej, statystyczny rozkład czasowy zjawisk i na tej podstawie tak ustala parametry łącza, aby otrzymać zadaną sprawność. Podejście to powoduje, że przy sprzyjających warunkach parametry są przewymiarowane, zaś przy skrajnie niesprzyjających transmisja nie dojdzie do skutku bądź nie osiągnie się oczekiwanych rezultatów. Podobnie jest w przypadku mobilnych użytkowników sieci radiowej, np. abonentów telefonii komórkowej. Celem operatora jest zapewnienie możliwie największej pojemności i jakości sieci. Idealne byłoby rozwiązanie, w którym zarówno stacja bazowa, jak i użytkownicy, mogą w czasie rzeczywistym dostosować się do warunków, osiągając możliwie najwyższą jakość [17]. Jednym z proponowanych rozwiązań, wychodzącym naprzeciw wspomnianym oczekiwaniom, jest technika inteligentnych anten. Nie należy tu jednak traktować pojęcia anteny w dosłownym znaczeniu tego słowa. W świetle ostatnich koncepcji jako antenę należy rozumieć cały układ nadawczo-odbiorczy, od źródła sygnału (często cyfrowego) po promienniki i odbłyśniki. Fundamentem tego podejścia jest twierdzenie, zgodnie z którym system sam mógłby się najlepiej dostosować do stawianych mu wymagań, gdyby był w stanie jednocześnie ocenić środowisko radiowe i sieć co najmniej tak dobrze, jak zrobi to operator oraz gdyby miał algorytmy analizy na tyle wydajne, by móc w czasie rzeczywistym generować wyniki i na ich podstawie modyfikować swoje działanie. Pewnym odzwierciedleniem tego poglądu jest stosowane już od czasów GSM sterowanie mocą w sieciach telefonii komórkowej bądź wprowadzone później sterowanie krotnością modulacji kwadraturowej w zależności od poziomu strat. Z kolei transmisja w technice Bluetooth próbuje zaradzić częstym i nieprzewidzianym zakłóceniom w paśmie 2,4 GHz techniką frequency hopping. Jednak stosowane dzisiaj rozwiązania są tylko pewnymi elementami bardziej ogólnej koncepcji inteligentnych anten i nie zapewniają kompleksowego rozwiązania. Są też tylko na tyle inteligentne, na ile zaplanował to projektant. Rozwiązania te nie potrafią rozwijać swoich możliwości na podstawie zebranego doświadczenia. Czyni to producent sprzętu, uwzględniając zdobytą wiedzę w kolejnej aktualizacji sprzętu bądź oprogramowania. Właśnie na tym polu pojawia się możliwość zastosowania algorytmów sztucznej inteligencji, a w tym algorytmów syntezy logicznej. Proces analizy danych, redukcji nadmiarowej informacji oraz generowania reguł decyzyjnych jesteśmy już w  stanie przekazać samym urządzeniom, bez potrzeby angażowania do tego procesu człowieka. Za pomocą szybkich algorytmów (np. algorytmu uzupełnienia funkcji boolowskich) możliwe stało się redukowanie ogromnych zbiorów danych w czasie wystarczającym, by algorytm mógł działać w reżimie czasu rzeczywistego. Z drugiej strony rozwiązania te są na tyle proste i wydajne, że stało się możliwie ich zaimplementowanie już nie tylko na pojedynczym komputerze, ale także na jednordzeniowych mikrokontrolerach ARM. Dzięki temu istnieje fizyczna możliwość zbierania danych o transmisji, zarówno w warstwie fizycznej, jak i dostępu

PRZEGLĄD TELEKOMUNIKACYJNY  ROCZNIK LXXXVII  WIADOMOŚCI TELEKOMUNIKACYJNE  ROCZNIK LXXxIII  nr 5/2014

do medium oraz ich analizy w czasie rzeczywistym. Można gromadzić dane mające wpływ na jakość transmisji – od warunków propagacji, temperatury, skali opadów, przez moc zakłóceń, aż po obciążenie sieci. Po stronie odbiornika jest możliwość badania jakości łącza, stopy błędów, można zweryfikować, czy stosowany rozmiar informacji nadmiarowej jest odpowiedni oraz czy użytkownik osiągnął oczekiwaną jakość łącza w przypadku sieci stosujących algorytmy QoS. Dzięki znajomości pełnego stanu środowiska układ nadawczo-odbiorczy może sam dopasować dynamicznie parametry transmisji, tak aby spełnić cele zadane przez operatora. Przechodzi się zatem od sieci, której architekturę ustala operator, do sieci celów. Sieć celów – na podstawie wiedzy o swoim stanie i zdobytym doświadczeniu – sama dąży do osiągnięcia stawianych wymagań. W idealnym przypadku operator lokuje sieć jako zespół identycznych urządzeń z pewną podstawową wiedzą. Z czasem każde z nich dostosowuje transmisję do warunków, w jakich się znajduje. Zastosowanie algorytmów sztucznej inteligencji w  technice transmisji bezprzewodowej [17] może znacznie poprawić efektywność wykorzystania pasma przez możliwie najlepsze dostosowanie w chwili transmisji. Dodatkowo takie dostosowanie ma niebagatelne znaczenie w przypadku transmisji w środowiskach o dużych zakłóceniach lub zwiększonych wymaganiach bezpieczeństwa. Nie trudno znaleźć zastosowanie dla algorytmów inteligentnej transmisji w systemach komunikacji ratowniczej bądź wojskowej, gdy w parze z wysokimi wymaganiami dotyczącymi jakości i dostępności łączy idzie także ich odporność na zakłócenia oraz ingerencję osób trzecich.

Medycyna Przy współpracy Centrum Onkologii – Instytutem im. Marii Skłodowskiej-Curie w Warszawie przeprowadzono badania dotyczące wyznaczania punktu odcięcia dla parametru Topoisomerase II-alfa (TOP2) z wykorzystaniem opracowanych w Zakładzie Podstaw Telekomunikacji Politechniki Warszawskiej metod analizy danych. Do badań wykorzystano dane kliniczne zgromadzone w latach 1988–2002 w Instytucie Matki i Dziecka w Warszawie. Wybrano jednorodną grupę pacjentów poniżej 25 roku życia, chorych na kostniakomięsaka (osteosarcoma) – złośliwy, pierwotny nowotwór tkanki kostnej. Z badań wykluczono chorych z niekorzystnymi czynnikami prognostycznymi [13]. W analizie uwzględniono następujące parametry kliniczne: wiek, płeć, lokalizację guza, wielkość guza, złamanie patologiczne, podtyp mięsaka kości, reakcję histologiczną na chemioterapię przedoperacyjną, rodzaj zabiegu. Parametrem decyzyjnym było przeżycie pacjenta. Analizę statystyczną przeprowadzono z  użyciem komercyjnego pakietu oprogramowania SPSS wersja 12. Punkt odcięcia rozstrzygnięto badając wskaźnik wiarygodności (likelihood ratio). Początkowo dla parametru TOP2 założono trzy punkty odcięcia: 10%, 25% i 40%. Najwyższy wynik LR = 2 uzyskano dla cięcia 25%. Następnie przeprowadzono wiele testów statystycznych, m.in. test chi2, mających na celu zbadanie zależności pomiędzy parametrami i parametrem TOP2 dla punktu odcięcia równego 25%. W analizie jednoczynnikowej użyto estymatora Kaplana-Meiera oraz testu log-rank. W analizie wieloczynnikowej zmiennych zależnych od czasu użyto modelu proporcjonalnego hazardu Cox-a dla parametrów istotnych statystycznie w teście log-rank (p

Suggest Documents