Co to jest analiza regresji?

Co to jest analiza regresji? Celem analizy regresji jest badanie związków pomiędzy wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną ...
7 downloads 0 Views 1MB Size
Co to jest analiza regresji? Celem analizy regresji jest badanie związków pomiędzy wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (objaśnianą), która musi mieć charakter liczbowy. W naukach społecznych, przyrodniczych i ekonomicznych analiza regresji jest szeroko stosowana jako narzędzie badawcze pozwalające opisać i zrozumieć zjawiska wielowymiarowe. Należy też wspomnieć, że w pewnych sytuacjach stworzony model służy do dokonania prognozy (predykcji) wartości zmiennej zależnej dla nowych obiektów lub kolejnych okresów czasowych. W klasycznej analizie regresji wielokrotnej model ma postać: Yi = b0 + b1X1 + ... + bkXk + ei i pozwala odpowiedzieć na pytanie “jakie wielkości w najlepszy sposób opisują poziom zmiennej Y”. Parametr b0 interpretujemy jako przeciętny (oczekiwany) poziom zmiennej objaśnianej Y gdy wszystkie zmienne objaśniające przyjmują wartość 0. Wzrost wartości zmiennej objaśniającej Xi o jednostkę powoduje zmianę wartości oczekiwanej zmiennej zależnej o bi jednostek, przy założeniu, że pozostałe zmiennej niezależne zachowują stałe wartości.

Analiza regresji w analizie szeregów czasowych W przypadku analizy szeregów czasowych, rolę zmiennej objaśniającej pełni zmienna czasowa (oznaczana czasami symbolem t). Model trendu liniowego dla szeregu czasowego przyjmuje więc postać: Yt = b0 + b1t + et Parametr b1 interpretować można jako średnioroczny przyrost prognozowanej wartości w jednostce czasu.

Jak wyznaczany jest model regresji (MNK)? Wzór modelu regresji jest wyznaczany w taki sposób, by zminimalizować

różnicę pomiędzy wartością modelowaną a faktyczną wartością zmiennej zależnej (Y) dla poszczególnych obiektów (w analizie danych czasowych, dla poszczególnych okresów czasowych). W praktyce, najczęściej przedmiotem optymalizacji jest suma kwadratów odchyleń wartości modelowanych o rzeczywistych pomiarów (tzw. suma kwadratów reszt). Taka metoda dopasowywania modelu do danych nosi nazwę METODY NAJMNIEJSZYCH KWADRATÓW (MNK).

Sposoby wyznaczania modelu regresji W programie STATISTICA analiza regresji dostępna jest w module REGRESJA WIELORAKA. Możliwość wyznaczenia wybranych modeli liniowych i nieliniowych względem jednej zmiennej niezależnej (a więc na przykład dla szeregów czasowych), udostępniona jest także podczas graficznej analizy danych (za pomocą wykresów liniowych i wykresów rozrzutu). Opis możliwości wykorzystania tych narzędzi do sporządzania prostych prognozo przedstawiono na poprzednim wykładzie. Moduł REGRESJA WIELORAKA pozwala na: • wyznaczenie wzoru modelu regresji; • ocenę jego dopasowania do danych; • ocenę istotności poszczególnych zmiennych; • przeprowadzenia tzw. analizy reszt i określenie wpływu na kształt modelu ewentualnych obserwacji odstających; • sporządzenie prognozy punktowej i przedziałowej (z określonym poziomem ufności).

Czy modele muszą mieć postać liniową? W programie STATISTICA procedura estymacji i weryfikacji modelu liniowego dokonywana jest w module REGRESJA WIELOKROTNA (warto wspomnieć, że możliwość oszacowania parametrów modelu regresji i pewnych podstawowych miar jakości jego dopasowania stwarza także arkusz kalkulacyjny Excel). Chociaż natura modelu podlegającego analizie musi być liniowa to za pomocą formuł arkusza danych bez większych trudności możemy wprowadzać także bardziej skomplikowane typy modeli: np. model kwadratowy, wielomianowy, hiperboliczny (wystarczy w tym celu dodać nową zmienną i nadać jej wartości według interesującej nas formuły). Bardziej wyrafinowanym narzędziem służącym do konstruowania modeli nieliniowych jest moduł ESTYMACJI NIELINIOWEJ, który będzie omawiany na kolejnym wykładzie.

Miary jakości modelu (dopasowania do danych) Współczynnik determinacji R2 - parametr ten interpretowany jest zwykle jako procent zmienności cechy zależnej wyjaśnianej przez model. Tak więc jest to miernik jakości dopasowania modelu do danych i jako taki może służyć do porównywania kilku modeli i wyboru najlepszego. Współczynnik determinacji przyjmuje wartości od 0 do 1 (bywa też wyrażany w procentach), przy czym oczywiście im jego wartość jest większa tym model lepiej dopasowany. Współczynnik korelacji wielorakiej (R) - stopień zależności pomiędzy zmienną zależną, a wszystkimi cechami niezależnymi uwzględnionymi w modelu jest określany poprzez wartość R, zwaną współczynnikiem korelacji wielorakiej. Obliczamy go pierwiastkując współczynnik determinacji, tak więc przyjmuje on wartości z przedziału [0, 1], przy czym 0 oznacza brak korelacji, zaś wartości 1 to idealny związek liniowy. W sytuacji, gdy mamy jedną zmienną objaśniającą dodatkowo możemy ustalić znak współczynnika korelacji, który będzie taki sam jak znak współczynnika regresji b1. Jeśli zmiennych objaśniających jest więcej, znaku współczynnika korelacji wielorakiej nie da się ustalić, gdyż różne cechy mogą w różny sposób wpływać na zmienną zależną.

Co się dzieje, gdy zwiększamy liczbę zmiennych w modelu? Współczynnik R2 rośnie wraz ze zwiększaniem liczby zmiennych w modelu. Gdybyśmy więc jako jedyne kryterium jakości dopasowania przyjęli jego wartość, wprowadzimy do modelu wszystkie dostępne cechy objaśniające. W ten sposób co prawda otrzymalibyśmy model najlepiej dopasowany, lecz jego złożoność nie pozwoliłaby wyciągnąć sensownych wniosków praktycznych, ponadto wzajemne oddziaływania licznych zmiennych niezależnych zaburzały by ich relację z cechą zależną. W statystyce (i nie tylko) powinna obowiązywać (skądinąd bardzo sympatyczna zasada KISS): Keep It Sophistically Simple. 180 000 160 000 140 000 120 000 100 000 80 000 60 000

Gru-2004

Lis-2004

Paź-2004

Wrz-2004

Sie-2004

Lip-2004

20 000

Cze-2004

40 000 Maj-2004

Liczba samochodów używanych sprowadzonych z UE

200 000

Do zaznaczonych na wykresie siedmiu obserwacji dopasowano dwa modele: liniowy i wielomian stopnia 5-go. Bez trudu można zauważyć, że bardziej złożony model pasuje do danych niemal idealnie. Czy jednak prognoza na kolejne miesiące dokonana na jego podstawie będzie miała jakąkolwiek wartość?

Istotność statystyczna zmiennych Prawdopodobieństwo testowe p dla zmiennych występujących w modelu Każde zjawisko da się wyjaśnić jeżeli przyjmiemy odpowiednio dużo zmiennych objaśniających – taki wniosek można wysnuć na podstawie przykładu przedstawionego na poprzednim slajdzie. Włączenie do modelu kolejnych potęg zmiennej czasowej (czyli de facto) wprowadzenie doń kolejnych zmiennych, spowodowało, iż model był optymalnie dopasowany do danych. Jednakże relacja ilości danych do liczby zmiennych, nawet intuicyjnie, była zbyt niska. W praktyce, ocena wzrokowa modelu nie zawsze jest możliwa i nie zawsze wnioski z niej płynące są jednoznaczne. Aby określić, czy poszczególne zmienne w modelu regresji opisują jakąś część zmienności cechy zależnej (Y), przeprowadza się odpowiednie testy statystyczne. W szczególności poddaje się weryfikacji hipotezę, według której wkład danej zmiennej w wyjaśnianie zmienności cechy Y jest nieistotny. Wynikiem testu statystycznego jest prawdopodobieństwo testowe p, którego niskie wartości pozwalają odrzucić „nieciekawą” hipotezę o braku znaczenia zmiennej objaśniającej w modelu.

Prognozowanie na podstawie modelu regresji Przewidywanie wartości zmiennej zależnej dla konkretnej jednostki z rozpatrywanej populacji jest możliwe jedynie wtedy, gdy model jest dobrze dopasowany, to znaczy wartość współczynnika determinacji daje pożądaną dokładność prognozy. Jak zawsze w statystyce prognoza musi być obarczona pewnym błędem. Miarą jakości prognozy jest tzw. poziom ufności (standardowo przyjmowana jego wartość to 95%=0,95). Przedział dla oceny wartości przeciętnych zmiennej zależnej nazywany jest przedziałem ufności a dla konkretnej jednostki statystycznej przedziałem predykcji. Przedział predykcji jest zawsze szerszy od przedziału ufności.

Przykłady zastosowania modeli regresji w analizie zjawisk czasowych Analiza dotyczy danych o liczbie samochodów osobowych, zarejestrowanych w Polsce w latach 1990-2009. Celem analizy będzie sporządzenie prognozy tej wielkości na lata 2010-2013. Do analizy zastosowane zostaną następujące narzędzia statystyczne: • wykresy liniowe (wraz z wizualizacją wybranych modeli regresji); • indeksy dynamiki; • szczegółowa analiza regresji.

Prezentacja graficzna Za pomocą wykresu liniowego wraz z nałożonym nań wykresem słupkowym, przedstawiono informacje o: • bezwzględnej liczbie samochodów osobowych • dynamice zmian w ujęciu rok do roku.

Analiza graficzna pozwala wyodrębnić wyraźny trend wzrostowy. Na tej podstawie można domniemywać, iż w kolejnym roku liczba zarejestrowanych samochodów wzrośnie. Z drugiej strony, w 2009 roku dynamika wzrostu liczby samochodów była bardzo niska, co jednak może być uznane za pewne losowe odchylenie od wyraźnego trendu widocznego we wcześniejszych latach.

Graficzna wizualizacja wybranych modeli Wykorzystując możliwość dopasowania pewnych modeli trendu bezpośrednio na wykresie liniowym, sporządzono graficzną prezentację dopasowania do danych rzeczywistych trendu liniowego i kwadratowego.

Na wykresie uwidoczniono dopasowany do analizowanego szeregu model liniowy i model kwadratowy trendu. Analiza graficzna pozwala stwierdzić, iż model kwadratowy jest znacznie lepiej dopasowany do danych, co jest szczególnie istotne bardzo dobrze odzwierciedla od zmiany liczby samochodów osobowych w ostatnich okresach objętych badaniem.

Analiza regresji – przygotowanie danych i wybór zmiennych W module REGRESJA WIELORAKA programu STATISTICA dostępne są liczne miary dopasowania modelu do danych, oceny jego istotności statystycznej. Szczegółowa analiza reszt pozwala na wykrycie obserwacji odstających od modelu, zaś narzędzia predykcji pozwalają na wyznaczenie nie tylko prognozy punktowej ale także zakresu ufności dla prognozy (tak zwanej prognozy przedziałowej). Aby przeprowadzić analizę regresji w arkuszu danych, musi występować explicite zmienna zawierająca informacje o numerze okresu czasowego. W tym celu w arkuszu dodajemy nową kolumnę i wypełniamy ją kolejnymi wartościami. Następnie w oknie wyboru zmiennych wskazujemy zmienną zależną i niezależną.

Analiza regresji – kluczowe wyniki Po przejściu do WYNIKI REGRESJI WIELORAKIEJ w zakładce PODSTAWOWE znajdujemy PODSUMOWANIE: WYNIKI REGRESJI. Poniżej wskazano najważniejsze informacje zawarte w tym dość „obfitym” zestawieniu wyników, które pozwalają na ocenę jakości modelu i decyzję o jego ewentualnym wykorzystaniu do procesu prognozowania. Wartość współczynnika determinacji R2, podawana jest zwyczajowo w procentach. Model liniowy w 96,6% opisuje zmienności liczby samochodów osobowych w latach 1990-2009, a więc jest znakomicie dopasowany do danych

W kolumnie „B” podane są wartości współczynników modelu, który przyjął postać: Y = 4340 + 547X

Błąd standardowy estymacji pozwala stwierdzić, iż rzeczywista liczba samochodów osobowych odstaje zwykle od wartości prognozowanej o 617 tys. pojazdów

Wartości prawdopodobieństwa testowego p pozwalają na stwierdzenie, iż zmienna czasowa jest w statystycznie istotny sposób powiązana z liczbą samochodów osobowych

Analiza regresji – prognoza W zakładce RESZTY, ZAŁOŻENIA, PREDYKCJA znajdują się narzędzia umożliwiające wyznaczenie punktowej i przedziałowej prognozy zmiennej Y dla zadanych wartości zmiennej X (w rozważanym przykładzie – liczby samochodów osobowych dla kolejnych lat. Aby wyznaczyć prognozę dla roku 2010 sprawdzamy w arkuszu danych jaki numer miała obserwacja z roku 2009. Na tej podstawie wprowadzamy w pole X wartość 21.

W wynikowej tabeli podawana jest wartość przewidywana analizowanej zmiennej (czyli prognoza punktowa). W rozważanym przypadku prognoza dla roku 2010 wynosi 15 830 tys. samochodów osobowych. W kolejnych dwóch wierszach podany jest przedział, w którym wartość prognozowana winna się znaleźć z 95% procentową ufnością. Podczas wyznaczania tej wartości uwzględniany jest fakt, iż model nie opisywał w 100% danych, odchylenia od modelu dla danych historycznych traktowane są jako wielkości losowe i na tej podstawie szacowany jest błąd prognozy a następnie prognoza przedziałowa. Na podstawie przeprowadzonych analiz przypuścić można, iż liczba samochodów będzie zawarta pomiędzy: 15 227 a 16 432 tys. pojazdów.

Merytoryczna weryfikacja prognozy Wyznaczona dla roku 2010 wartość prognozowana liczby samochodów osobowych jest znacząco niższa od poziomu tej cechy dla roku 2009 a nawet 2008. Trudno w tej sytuacji uznać ją za wiarygodną, gdyż analizowane zjawisko ma tę specyfikę, iż raczej trudno spodziewać się wystąpienia w jego przebiegu tak wyraźnego spadku. Powodem uzyskania tak nielogicznego wyniku jest znacząca niezgodność pomiędzy poziomem badanego zjawiska wynikającym z przyjęcia modelu liniowego a jego rzeczywistym poziomem w ostatnich latach objętych analizą. Uzyskaną prognozę należy odrzucić, decyzję o nieuwzględnianiu liniowego modelu rozwoju badanego zjawiska można było podjąć już na etapie graficznej analizy danych. Jak widać, nie zawsze model dobrze dopasowany (w sensie istotności statystycznej i wartości współczynnika determinacji) pozwala na uzyskanie dobrej prognozy.

Model „kwadratowy” Moduł REGRESJA WIELORAKA umożliwia wprowadzenie do analizy wielu zmiennych objaśniających. W szczególności, dodając w arkuszu danych odpowiednie kolumny, możliwe jest zbadanie własności modelu kwadratowego, czy dowolnego wielomianu. Każdy model postaci: Yt = b0 + f1(t)b1 + … + fk(t)·bk + et jest łatwo sprowadzalny do modelu liniowego.

Statystyczna weryfikacja modelu kwadratowego W tabeli PODSUMOWANIE WYNIKÓW informacje o szacowanym modelu.

REGRESJI

znajdujemy

podstawowe

Model paraboliczny jest lepiej dopasowany do danych niż model liniowy (R2 = 99,0%). Należy jednak pamiętać, iż jest to rzecz oczywista, gdyż model bardziej złożony (a funkcja kwadratowa „zawiera” w sobie funkcję liniową, zawsze będzie się charakteryzował lepszym dopasowaniem do danych. Aby znaleźć rozsądny kompromis pomiędzy złożonością modelu i jego dopasowaniem do danych, należy wziąć pod uwagę istotność zmiennych niezależnych.

Parametry modelu nie mają tak łatwej interpretacji praktycznej, jak w przypadku modelu liniowego.

Zarówno komponent liniowy jak i kwadratowy w analizowanym modelu są istotne statystycznie. Ze statystycznego punktu widzenia, model można wykorzystać do prognozy.

Prognoza na podstawie modelu kwadratowego Podstawiają odpowiednie wartości za zmienne X oraz X2 dokonujemy prognozy liczby samochodów na rok 2010.

Do modelu podstawiamy numer odpowiadający kolejnemu rokowi, czyli wartość 21. Oczywiście za zmienną X2 podstawiamy 441 (212)

Na podstawie modelu kwadratowego, otrzymujemy prognozę punktową liczby samochodów osobowych zarejestrowanych w Polsce w roku 2010 na poziomie 17099 tys. pojazdów, przy 95% przedziale ufności na poziomie 17100-17650 tys. pojazdów.

Bardziej skomplikowane modele… Z technicznego punktu widzenia, nic nie stoi na przeszkodzie, by do modelu wprowadzić kolejne potęgi zmiennej czasowej. Poniżej zamieszczono przykładowe wyniki dla modelu, w którym uwzględniono zmienne X, X2 oraz X4.

Zmienna X2 okazała się być nieistotna statystycznie po wprowadzeniu do modelu zmiennej X4, a więc należy ją wykluczyć z analizy i ponownie dokonać obliczeń.

Po wyeliminowaniu zmiennej X2 pozostałe czynniki są istotne statystycznie. Jakość dopasowania modelu jest bardzo wysoka – współczynnik determinacji wynosi aż 99,5%.

Zestawienie prognoz Poniżej zestawiono prognozy liczby samochodów osobowych na lata 2010-2013 uzyskane za pomocą modelu liniowego, kwadratowego i zredukowanego wielomianu stopnia czwartego. Rok

Model liniowy

Model kwadratowy

Model X i X4

2010

15 830

17 100

17 783

2011

16 377

18 010

19 094

2012

16 924

18 952

20 541

2013

17 471

19 928

22 137

Ponieważ GUS udostępnia już informację o liczbie samochodów zarejestrowanych na koniec 2010 r. (17 239 tys.) możliwa jest weryfikacja prognoz dla tego okresu. Poniżej zestawiono błąd procentowy poszczególnych prognoz : • model liniowy

8,2%

• model kwadratowy

0,8%

• model X i X4

-3,2%

Jak widać, zdecydowanie najlepsze przewidywania dał model kwadratowy, którego prognozę należałoby jedynie nieznacznie zwiększyć w celu otrzymania faktycznie zaobserwowanej wielkości. Model liniowy dał prognozy zdecydowanie zaniżone (była już o tym mowa wcześniej), zaś model X i X4 mimo najlepszego dopasowania do danych, przeszacowuje liczbę samochodów o 3,2%, co wynika niewątpliwie z matematycznej własności „szybko rosnącej” funkcji wielomianowej 4. stopnia.

Uwagi końcowe Analizując otrzymane wyniki, należy pamiętać, iż zostały one uzyskane jedynie na podstawie informacji zawartych w wyjściowym szeregu czasowym – nie uwzględniono żadnych czynników zewnętrznych. Tymczasem prognozując sytuację na rynku motoryzacyjnym należałoby wziąć pod uwagę jeszcze wiele innych czynników. Dla przykładu: • możliwości kredytowe Polaków w kolejnych okresach - w tym kontekście istotne mogą być też zmiany wynagrodzeń, sytuacja na rynku pracy i działalność banków; • zmiany demograficzne – spadek liczności populacji i jej starzenie się; • nasycenie rynku motoryzacyjnego - porównanie wskaźnika liczby samochodów na 1 tys. mieszk. z innymi państwami europejskimi; • przewidywania odnośnie cen paliw; • atrakcyjność konkurencyjnych środków transportu (w szczególności transportu kolejowego).