ZASTOSOWANIE SZTUCZNYCH SIECI NEURONOWYCH I ANALIZY DYSKRYMINACYJNEJ DO USTALANIA POLITYKI CENOWEJ W REDNIM PRZEDSI BIORSTWIE

Marcin RELICH Paweá KUĩDOWICZ Uniwersytet Zielonogórski ZASTOSOWANIE SZTUCZNYCH SIECI NEURONOWYCH I ANALIZY DYSKRYMINACYJNEJ DO USTALANIA POLITYKI CE...
Author: Irena Ostrowska
2 downloads 0 Views 174KB Size
Marcin RELICH Paweá KUĩDOWICZ Uniwersytet Zielonogórski

ZASTOSOWANIE SZTUCZNYCH SIECI NEURONOWYCH I ANALIZY DYSKRYMINACYJNEJ DO USTALANIA POLITYKI CENOWEJ W ĝREDNIM PRZEDSIĉBIORSTWIE 1. WstĊp Obecnie obserwowany jest coraz intensywniejszy przepáyw informacji w przedsiĊbiorstwach. Skutkiem tego jest systematyczne powiĊkszanie siĊ zbiorów danych. Dane te dotyczą zarówno zdarzeĔ gospodarczych wystĊpujących w przedsiĊbiorstwie, jak równieĪ – otoczenia (np. danych o konkurencji). W przypadku wykorzystania zintegrowanych systemów informatycznych (ZSI) zbiory danych powiĊkszają siĊ szczególnie szybko. W celu gromadzenia i przetwarzania ogromnych iloĞci danych obecnie coraz rzadziej korzysta siĊ z arkuszy kalkulacyjnych czy prostych aplikacji bazodanowych. W zaleĪnoĞci od branĪy i pozycji przedsiĊbiorstwa na rynku, coraz czĊĞciej są wykorzystywane aplikacje dedykowane lub ZSI. Systemy te pozwalają nie tylko na ewidencjĊ i przetwarzanie duĪej iloĞci danych, lecz równieĪ na sporządzanie statystyk pomocnych w procesie decyzyjnym. Korzystanie z tego typu narzĊdzi staáo siĊ koniecznoĞcią, gdyĪ przy duĪej iloĞci danych, najwiĊkszym problemem nie jest ich gromadzenie, a wykrycie wystĊpujących w nich zaleĪnoĞci. ZaleĪnoĞci te moĪna przedstawiü poprzez np. modelowanie, prognozowanie czy klasyfikacjĊ obiektu badaĔ. Samo wyszukiwanie wartoĞciowych informacji z obszernego zakresu danych jest procesem trudnym i czasocháonnym, który bazuje na doĞwiadczeniu i wiedzy badacza. Dlatego teĪ, do eksploracji danych wykorzystuje siĊ róĪne techniki. W [2] wyróĪnia siĊ trzy techniki data mining: – analizĊ skupieĔ, – drzewa decyzyjne, – sztuczne sieci neuronowe. SSN dziĊki budowie opartej na wzorcach biologicznych ukáadów nerwowych posiadają niezwykáe wáaĞciwoĞci, do których moĪna zaliczyü [7]: zdolnoĞü uczenia siĊ i uogólniania zdobytej wiedzy; zdolnoĞü adaptacji do zmiennych warunków; maáa wraĪliwoĞü na báĊdy w zbiorze danych; zdolnoĞü do efektyw-

70

Marcin Relich, Paweá KuĪdowicz

nej pracy nawet po czĊĞciowym uszkodzeniu sieci; zdolnoĞü do równolegáego i rozproszonego przetwarzania danych. Zaletą sieci neuronowych jest fakt, Īe pozwalają one poszukiwaü modeli w przypadku procesów zaleĪnych od wielu czynników (czĊsto losowych), których wpáyw na proces jest trudny do opisania w postaci Ğcisáych zaleĪnoĞci iloĞciowych, a czĊsto takĪe zaleĪy od cech indywidualnych obiektu. WyĪej wymienione wáaĞciwoĞci, niespotykane w konwencjonalnych systemach komputerowych umoĪliwiają zastosowanie SSN w wielu dziedzinach nauki. W literaturze moĪna spotkaü nastĊpujące obszary zastosowaĔ sieci neuronowych [7, 10]: rozpoznawanie i klasyfikacja wzorców, predykcja, identyfikacja i sterowanie, asocjacja, kompresja, filtracja sygnaáów, aproksymacja i interpolacja. AtrakcyjnoĞü aplikacyjna sieci neuronowych w przypadku klasyfikacji danych wynika z kilku powodów – nie są potrzebne zaáoĪenia dotyczące natury rozkáadu danych, których weryfikacja w przypadku analizy wielowymiarowej jest bardzo trudna, ponadto sieci neuronowe są modelami nieliniowymi, są zatem adekwatne do analizy záoĪonych problemów klasyfikacyjnych. DziĊki wáasnoĞci uogólniania zdobytej wiedzy sieci neuronowe lepiej niĪ klasyczne metody statystyczne dają sobie radĊ z danymi niekompletnymi oraz danymi o záej jakoĞci. SSN posiadają równieĪ sáabe strony. Do najistotniejszych trudnoĞci w wykorzystaniu sieci neuronowych moĪna zaliczyü [5]: potrzebĊ odpowiedniego przygotowania danych; problemy związane z doborem wáaĞciwej struktury modelu neuronowego (rodzaj sieci, przyjĊte modele neuronu, liczba neuronów i sposób ich poáączenia); koniecznoĞü wyboru wáaĞciwego algorytmu uczenia sieci; wysokie nakáady czasowe związane z oszacowaniem modelu neuronowego; brak (w wiĊkszoĞci przypadków) moĪliwoĞci bezpoĞredniej interpretacji poszczególnych wspóáczynników modelu neuronowego.

2. Data mining a klasyfikacja danych Tak jak zaznaczono we wstĊpie, obecnie przechowywanie czy przesyáanie danych nie stanowi problemu. Przy duĪej iloĞci danych problemem jest wydobycie z danych uĪytecznych dla nas informacji, które pomogą szybciej i trafniej podjąü decyzjĊ. Odpowiedzią na nowe wymagania są narzĊdzia data mining. W literaturze przedmiotu spotykamy liczne definicje dotyczące data mining. WiĊkszoĞü z nich moĪna sprowadziü do nastĊpującej definicji [3]: Data mining to okreĞlenie grupy metod szeroko rozumianej analizy danych mających na celu identyfikacjĊ nieznanych wczeĞniej prawidáowoĞci wystĊpujących w duĪych zbiorach danych, a nastĊpnie ocenĊ wyników poprzez zastosowanie wykrytych schematów dla nowych podzbiorów danych. Klasyfikacja danych jest jednym z najczĊĞciej wymienianych zagadnieĔ w metodach data mining. Jej celem jest przypisanie poszczególnych przypadków do odpowiednich grup, przy czym zawsze liczba grup jest ograniczona. Zbudo-

Zastosowanie sztucznych sieci neuronowych i analizy…

71

wany model moĪna nastĊpnie zastosowaü do przypisywania nowych obiektów, których przynaleĪnoĞü do grupy nie jest znana, do wczeĞniej okreĞlonych klas. W literaturze wĞród najczĊĞciej stosowanych metod rozwiązujących problem klasyfikacji wymienia siĊ [1, 4, 9]: – sieci neuronowe, – liniową i logistyczną analizĊ dyskryminacyjną, – drzewa klasyfikacyjne. Metody klasyfikacji dzieli siĊ zazwyczaj na dwie grupy. Pierwszą grupĊ stanowią metody klasyfikacji wzorcowej, nazywane równieĪ metodami dyskryminacyjnymi lub metodami rozpoznawania z nauczycielem. Zagadnienie klasyfikacji wzorcowej polega na przypisaniu kaĪdego przypadku do jednej z klas na podstawie znanych a priori wzorców tych klas. Druga grupa to metody klasyfikacji bezwzorcowej, inaczej nazywane metodami rozpoznawania bez nauczyciela. Metody klasyfikacji bezwzorcowej sáuĪą do podziaáu badanego zbioru obiektów na jednorodne podzbiory. W metodach klasyfikacji bezwzorcowej w przeciwieĔstwie do metod klasyfikacji wzorcowej, przed rozpoczĊciem badaĔ nie są znane wzorce klas. Klasyfikacja bezwzorcowa sáuĪy przede wszystkim do badania struktury analizowanej zbiorowoĞci. Podczas rozpoznawania z nauczycielem zazwyczaj nastĊpuje podziaá zbioru badanych obiektów na dwie próby: uczącą i testową. Na podstawie informacji zawartych w próbie uczącej (wektor zmiennych diagnostycznych dla poszczególnych przypadków wraz ze zmienną grupującą), przeprowadza siĊ proces estymacji parametrów modelu. Jest to tzw. etap uczenia. NastĊpnie w oparciu o próbĊ testową przeprowadzana jest ocena poprawnoĞci klasyfikacji. W przypadku testowania wprowadza siĊ tylko dane dotyczące zmiennych diagnostycznych dla poszczególnych przypadków i wyznacza siĊ wartoĞci zmiennej grupującej, które są porównywane z rzeczywistymi wartoĞciami tej zmiennej. Na tej podstawie okreĞla siĊ jakoĞü klasyfikacji danych. Klasyfikacja obiektów za pomocą wielowymiarowej analizy statystycznej wymaga okreĞlenia cech diagnostycznych. Powinny one moĪliwie peánie opisywaü najistotniejsze wáaĞciwoĞci analizowanych obiektów. Wybór odpowiedniego zestawu cech diagnostycznych jest zagadnieniem niezwykle istotnym, poniewaĪ w znacznym stopniu od niego zaleĪą ostateczne wyniki klasyfikacji. Do podstawowych metod statystycznych wykorzystywanych do doboru zmiennych diagnostycznych moĪna zaliczyü metody analizy macierzy wspóáczynników korelacji, metodĊ analizy czynnikowej oraz metodĊ analizy gáównych skáadowych.

3. Przykáad ustalania polityki cenowej przedsiĊbiorstwa W przykáadzie wykorzystano bazy danych udostĊpnione przez Ğredniej wielkoĞci przedsiĊbiorstwo produkcyjno-handlowe. PrzedsiĊbiorstwo to posiada wdroĪony i z powodzeniem wykorzystywany zintegrowany system informatyczny

72

Marcin Relich, Paweá KuĪdowicz

ProALPHA®, który dziĊki gromadzeniu i analizie danych wydatnie przyczynia siĊ do usprawnienia procesu zarządzania przedsiĊbiorstwem. Przedmiotem dziaáalnoĞci przedsiĊbiorstwa jest wytwarzanie i import artykuáów gospodarstwa domowego, a nastĊpnie ich sprzedaĪ do supermarketów. PrzedsiĊbiorstwo wykorzystuje ok. 60 rodzajów warunków páatnoĞci jako narzĊdzia marketingu. Stąd zasadne wydaje siĊ wyodrĊbnienie takiego warunku páatnoĞci lub grup warunków páatnoĞci dla nowego kontrahenta, które pozwolą na optymalizacjĊ polityki cenowej firmy. DziĊki przeprowadzonym symulacjom powinniĞmy otrzymaü odpowiedĨ na pytanie: które elementy polityki cenowej i w jakim stopniu naleĪy zmieniü, aby klient w terminie wywiązywaá siĊ z zobowiązaĔ. Na podstawie badaĔ literaturowych [m.in. 8] oraz analizy danych pod wzglĊdem niezaleĪnoĞci cech, okreĞlono nastĊpujący zestaw cech diagnostycznych: wartoĞü transakcji, limit kredytu udzielanego klientowi, warunki páatnoĞci, wartoĞü konta. Jako zmienną grupującą przyjĊto zwáokĊ w páatnoĞci, którą arbitralnie podzielono na trzy klasy: páatnoĞü w terminie, opóĨnienie w páatnoĞci do 30 dni i opóĨnienie w páatnoĞci powyĪej 30 dni. Wybranie okresu zwáoki w páatnoĞci na zmienną grupującą zostaáo podyktowane zakresem bazy danych przedsiĊbiorstwa. Zmienna ta wydaje siĊ dobrze okreĞlaü reakcjĊ klienta na politykĊ cenową rozpatrywanego przedsiĊbiorstwa, choü mogą na nią mieü wpáyw równieĪ inne czynniki (np. kondycja finansowa kontrahenta). Do symulacji komputerowych wykorzystano 4988 rekordów, które dotyczą przeprowadzanych transakcji z gáównymi grupami klientów w latach 2004-2005. Dane wykorzystywane do symulacji komputerowych zostaáy poddane normalizacji, zwiĊkszając tym samym efektywnoĞü procesu uczenia. Dla sieci wielowarstwowych jednokierunkowych przyjĊto liczbĊ neuronów wyjĞciowych równą liczbie klas zmiennej grupującej. W przypadku tym, gdy jeden neuron wyjĞciowy reprezentuje tylko jedną klasĊ, stosuje siĊ zazwyczaj kodowanie binarne. Tak wiĊc, wartoĞü 1 oznacza przynaleĪnoĞü badanego obiektu do danej klasy, zaĞ wartoĞü 0 – brak przynaleĪnoĞci. NaleĪy zauwaĪyü, iĪ wartoĞci wyjĞü generowane przez sieci neuronowe zazwyczaj naleĪą do pewnego przedziaáu i na ogóá nie są dokáadnie równe wzorcowi. W związku z tym naleĪy ustaliü próg, na podstawie którego wartoĞci wyjĞü sieci neuronowej zostaną przyporządkowane danej klasie. W literaturze przedmiotu spotyka siĊ kilka podejĞü dotyczących szacowania wartoĞci progu (progów). Przykáadowo w [6], dla znormalizowanych wyjĞü naleĪących do przedziaáu (0;1) i funkcji logistycznej zaleca siĊ próg 0,1 dla jednej decyzji i 0,9 dla drugiej lub klasyfikacjĊ dla progu 0,5. W niniejszym artykule na podstawie eksperymentów, wybrano wartoĞü graniczną równą 0,5, gdyĪ w tym przypadku zaobserwowano najwyĪszy udziaá poprawnie zaklasyfikowanych obiektów w próbie uczącej i testowej. W przeprowadzonych badaniach wykorzystano: – jednokierunkowe sieci neuronowe trenowane za pomocą algorytmu wstecznej propagacji báĊdów (modyfikacja wag wedáug optymalizacji Levenberg-

Zastosowanie sztucznych sieci neuronowych i analizy…

73

Marquardt. Symulacje komputerowe zostaáy równieĪ przeprowadzone dla algorytmu wstecznej propagacji báĊdów, przy modyfikacji wag wedáug optymalizacyjnej metody najwiĊkszego spadku z momentum i krokiem adaptacyjnym, lecz osiągniĊte wyniki klasyfikacji okazaáy siĊ mniej trafne, niĪ wedáug optymalizacji Levenberg-Marquardt), – sieci rekurencyjne Elmana, – liniową analizĊ dyskryminacyjną. Zazwyczaj do problemu klasyfikacji wzorcowej oprócz wyĪej wymienionych sieci neuronowych, wykorzystywane są równieĪ sieci radialne. W niniejszym opracowaniu zostaáy one jednak pominiĊte ze wzglĊdu na liczebnoĞü próby. Do jednej z wad sieci radialnej naleĪy jej niemal ekspotencjalna zaleĪnoĞü liczby funkcji bazowych od wymiarowoĞci wektora wejĞciowego, co skutkuje angaĪowaniem nadmiernej iloĞci pamiĊci operacyjnej i czasu pracy procesora. Do symulacji komputerowych zebrane dane podzielono na dwie próby: uczącą i testową, w proporcjach: 80% do 20% (odpowiednio 3991 przypadków w zbiorze uczącym i 997 w zbiorze testowym). Na podstawie przeprowadzonych doĞwiadczeĔ ustalono dla kaĪdego rodzaju sieci optymalną liczbĊ warstw ukrytych i liczbĊ neuronów w kaĪdej warstwie, tj. wytypowano taką strukturĊ sieci, dla której báĊdy klasyfikacji w zbiorze testowym byáy najniĪsze. Sieü posiadaáa 4 neurony wejĞciowe, 10 ukrytych i 3 wyjĞciowe. Tabela 1 przedstawia klasyfikacjĊ przypadków w zbiorze uczącym oraz testowym dla liniowej analizy dyskryminacyjnej oraz sztucznych sieci neuronowych. Tabela 1. Wyniki poprawnej klasyfikacji przypadków dla liniowej analizy dyskryminacyjnej oraz SSN Etap uczenia Poprawne klasyfikacje K1 K2 % K1 99,73 2634 6 Liniowa analiza K2 3,13 805 26 dyskryminacyjna K3 0 519 0 Razem 3958 32 66,65 K1 96,06 2537 25 Jednokierunkowa K2 18,17 655 151 sieü neuronowa K3 30,06 359 4 (4-10-3) Razem 3551 180 71,26 K1 98,26 2595 37 Sieü rekurencyjna K2 1,32 814 11 Elmana K3 1,16 496 17 Razem 3905 65 65,45

K3 1 0 0 1 79 25 156 260 9 6 6 21

Etap testowania Poprawne klasyfikacje K1 K2 % 99,70 667 2 2,96 197 6 0 125 0 989 8 67,50 92,23 617 4 16,75 156 34 36,00 78 2 851 40 69,81 92,53 619 50 11,82 179 24 0 117 8 915 82 64,49

K3 0 0 0 0 48 13 45 106 0 0 0 0

74

Marcin Relich, Paweá KuĪdowicz

Na podstawie powyĪszych wyników moĪna stwierdziü, Īe najwiĊkszą poprawnoĞcią klasyfikacji, zarówno w zbiorze uczącym, jak i testowym, odznaczaáa siĊ jednokierunkowa sieü neuronowa. MoĪna zauwaĪyü, iĪ jedynie ona zdoáaáa wyraĨnie wyróĪniü trzy klasy analizowanego problemu. Liniowa analiza dyskryminacyjna oraz sieü rekurencyjna Elmana nie byáy w stanie poradziü sobie z przyporządkowaniem elementów obu prób do odpowiednich klas. Kolejnym wnioskiem, jaki nasuwa siĊ analizując wyniki powyĪszej tabeli jest to, iĪ nie wszystkie rodzaje sieci neuronowych w równym stopniu nadają siĊ do wykorzystania przy klasyfikacji danych. Do konkretnego problemu naleĪy doĞwiadczalnie dokonaü wyboru odpowiedniej struktury i typu sieci neuronowej, co niewątpliwie nie wpáywa na korzyĞü stosowania tego narzĊdzia, jednakĪe zdaniem wielu autorów korzyĞci ze stosowania SSN przewyĪszają niedogodnoĞci, które nakáada proces budowy sieci.

4. Podsumowanie W artykule przedstawiono zastosowanie technik SSN w drąĪeniu danych, jako alternatywy do tradycyjnie stosowanej w tym celu analizy dyskryminacyjnej. Jako przykáad wybrano wpáyw polityki cenowej na reakcjĊ klienta. Porównując wyniki symulacji komputerowych moĪna zaobserwowaü, iĪ jednokierunkowe wielowarstwowe sztuczne sieci neuronowe radziáy sobie lepiej z problemem klasyfikacji niĪ wielowymiarowa analiza dyskryminacyjna. Szczególnie jest to widoczne, przy przyporządkowywaniu obiektów do odpowiednich klas. Zastosowanie sztucznych sieci neuronowych wydaje siĊ wiĊc jak najbardziej zasadne przy tego typu problemach. Rozwiązania tego rodzaju wychodzą naprzeciw potrzebom przedsiĊbiorców, którzy oczekują bardziej precyzyjnych informacji wykorzystywanych nastĊpnie do podejmowania decyzji w przedsiĊbiorstwie. Dobrze nauczona i przetestowana sieü moĪe zostaü wykorzystana do modyfikacji polityki cenowej dla dotychczasowych kontrahentów lub ustalenia polityki cenowej dla nowych klientów, którzy nie byli rozpatrywani w procesie uczenia i testowania sieci. OczywiĞcie jakoĞü klasyfikacji jest ĞciĞle związana z rodzajem i kompletnoĞcią wykorzystywanych do tego celu danych. Dotyczy to zwáaszcza rozpoznawania ze wzorcem, które zostaáo przedstawione w tym artykule, gdyĪ zmienna grupująca powinna zawieraü informacje dotyczące rzeczywistej, a nie hipotetycznej przynaleĪnoĞci obiektu do jednej z wyróĪnionych klas.

Bibliografia: 1. 2. 3. 4.

Aczel A. D.: Statystyka w zarządzaniu, PWN, Warszawa 2000. Berry M.J.A., Linoff G.S.: Mastering data mining, New York 2000. Gatnar E.: Data mining: metody i zastosowania, Wyd. AE, Wrocáaw 1997. Gatnar E.: Symboliczne metody klasyfikacji danych, PWN, Warszawa 1998.

Zastosowanie sztucznych sieci neuronowych i analizy…

75

5. Lula P., Wykorzystanie sztucznej inteligencji w prognozowaniu. http://www.statsoft.pl/czytelnia/neuron/sztucznaintel.html 6. Masters T.: Sieci neuronowe w praktyce, WNT, Warszawa 1996. 7. Osowski S.: Sieci neuronowe do przetwarzania informacji, Wyd. PW, Warszawa 2000. 8. Simon H.: Zarządzanie cenami, PWN, Warszawa 1996. 9. Witkowska D.: Sztuczne sieci neuronowe i metody statystyczne, Wyd. C.H. Beck, Warszawa 2002. 10. ĩurada J., Barski M., JĊdruch W.: Sztuczne sieci neuronowe, PWN, Warszawa 1996.

Suggest Documents