1 Miary asymetrii i koncentracji

Studia podyplomowe w zakresie technik internetowych i komputerowej analizy danych Podstawy statystyki opisowej Adam Kiersztyn 3 godziny lekcyjne 2011-...
5 downloads 2 Views 280KB Size
Studia podyplomowe w zakresie technik internetowych i komputerowej analizy danych Podstawy statystyki opisowej Adam Kiersztyn 3 godziny lekcyjne 2011-10-22 10.10 - 12.30

1

Miary asymetrii i koncentracji

Najprostszymi miarami asymetrii sa¾ wska´zniki sko´sno´sci (WS lub WQ ) dane wzorami WS = X D; WQ = (Q3

M e)

(M e

Q1 ) = Q3 + Q1

2 Me

oraz wspó÷ czynnik sko´sno´sci dany wzorem AD =

X

D s

:

Ponadto nalez·y jeszcze wprowadzi´c dwa proste wspó÷czynniki: zmienno´sci v i nierówno´sci H, okre´slone wzorami: s v= 100%; X d 100%: X Zanim przystapimy ¾ do omawiania pozosta÷ych miar asymetrii i koncentracji podamy wzory na momenty zwyk÷e, absolutne oraz centralne rzedu ¾ l: Wzory te podamy w dwóch wersjach, w wariancie dla danych niezgrupowanych oraz w nawiasie w wariancie dla szeregu przedzia÷ owego. Moment zwyk÷y ml rzedu ¾ lz próbki x1 ; x2 ; : : : ; xn obliczamy ze wzoru ! n k 1X l 1 X l ml = x ; mk = x_ ni n i=1 i N i=1 i H=

Moment zwyk÷ y jest, jak ÷ atwo zauwaz·y´c, ´srednia¾ arytmetyczna¾ l-tych poteg ¾ warto´sci xi : W podobny sposób de…niuje sie¾ moment absolutny al rzedu ¾ l z próbki x1 ; x2 ; : : : ; xn . Wyraz·a sie¾ on wzorem ! n k 1X 1 X l l al = jxi j ; al = jx_ i j ni n i=1 N i=1 i jest ´srednia¾ arytmetyczna¾ l-tych poteg ¾ modu÷ów warto´sci xi : Ponadto rozwaz·a sie¾ moment centralny rzedu ¾ l zadany wzorem ! n k 1X 1 X l l xi X ; Ml = x_ i X Ml = ni n i=1 N i=1 1

oraz centralny moment absolutny rzedu ¾ k dany wzorem n

1X bl = xi n i=1

k 1 X X ; bl = x_ i N i=1 l

X

l

ni

!

Nalez·y w tym miejscu zauwaz·y´c, z·e moment centralny rzedu ¾ 2 jest wariancja, ¾ natomiast centralny moment absolutny rzedu ¾ 1 jest odchyleniem przecietnym. ¾ Korzystajac ¾ z powyz·szych pomocniczych oznacze´n zde…niujmy wybrane miary asymetrii i koncentracji. Jednym z najcze´ ¾sciej stosowanych jest wspó÷ czynnik asymetrii (sko´sno´sci) dany wzorem g1 =

M3 ; s3

gdzie s jest odchyleniem standardowym, podobna¾ posta´c ma wspó÷ czynnik koncentracji (skupienia) dany wzorem K=

M4 ; s4

wspó÷ czynnik ten bywa równiez· nazywany kurtoza. ¾ W statystyce opisowej rozwaz·a sie¾ równiez· wspó÷ czynnik sp÷ aszczenia (eksces) dany wzorem g2 = K

3=

M4 s4

3:

Ponadto nalez·y zauwaz·y´c, z·e nie sa¾ to wszystkie sposoby opisu asymetrii i koncentracji. Moz·na tutaj wymieni´c m.in. krzywa¾ Lorenza czy tez· wspó÷ czynnik Giniego. Przyk÷ ad 1 Rozwa·zmy cztery szeregi przedzia÷owe o takich samych przedzia÷ach i ró·znych liczebno´sciach poszczególnych klas. ´srodek przedzia÷u 1 2 3 4 5 6 7

szereg I 0 6 12 14 12 6 0

szereg II 2 2 10 22 10 2 2

szereg III 0 2 20 12 10 4 2

szereg IV 2 4 10 12 20 2 0

Wyznaczy´c ´srednia¾ arytmetyczna¾ i cztery pierwsze momenty ka·zdego typu dla poszczególnych szeregów, a nastepnie ¾ obliczy´c wprowadzone wcze´sniej miary koncentracji i asymetrii. Rozwiazanie: ¾ W kroku pierwszym obliczymy ´srednia¾ arytmetyczna¾ dla poszczególnych szeregów X1 =

1 (1 0 + 2 6 + 3 12 + 4 14 + 5 12 + 6 6 + 7 0) = 4 50 2

1 (1 2 + 2 2 + 3 10 + 4 22 + 5 10 + 6 2 + 7 2) = 4 50 1 X3 = (1 0 + 2 2 + 3 20 + 4 12 + 5 10 + 6 4 + 7 2) = 4 50 1 X4 = (1 2 + 2 4 + 3 10 + 4 12 + 5 20 + 6 2 + 7 0) = 4 50 Zatem w kaz·dym z rozwaz·anych przypadków ´srednia wynosi 4, dzieki ¾ takiemu zbiegowi okoliczno´sci bedzie ¾ nam ÷ atwiej przeprowadzi´c dalsza¾ cze´s´c oblicze´n. Z uwagi na fakt, z·e wszystkie obserwacje sa¾nieujemny momenty zwyk÷e i momenty absolutne poszczególnych rzedów ¾ sa¾jednakowe. Zatem nie musimy oblicza´c momentów absolutnych. Zanim przejdziemy do obliczania warto´s´c poszczególnych momentów dla kaz·dego szeregu oddzielnie przygotujmy sobie tabele¾ zawierajac ¾ a¾ dodatkowe obliczenia (oczywi´scie tabelk¾ e ta¾ wykonujemy w Excelu wszyscy wspólnie krok po kroku) X2 =

x2i 1 4 9 16 25 36 49

x3i 1 8 27 64 125 216 343

x4i xi X 1 3 16 2 81 1 256 0 625 1 1296 2 2401 3

xi

X

2

xi

9 4 1 0 1 4 9

X 27 8 1 0 1 8 27

3

xi

X 81 16 1 0 1 16 81

4

X

xi 3 2 1 0 1 2 3

X

xi 9 4 1 0 1 4 9

Teraz moz·emy w prosty sposób domnaz·ajac ¾ poszczególne elementy powyz·szej tabeli przez odpowiednie liczebno´sci, sumujac ¾ kolumny i dzielac ¾ przez liczebno´s´c

3

2

xi

X 27 8 1 0 1 8 27

3

xi

X 81 16 1 0 1 16 81

4

ca÷ kowita¾ otrzymujemy wymagane momenty. Dla pierwszego szeregu mamy:

suma

x2i ni 0 24 108 224 300 216 0 872 xi

suma

X 0 12 12 0 12 12 0 48

x3i ni 0 48 324 896 1500 1296 0 4064 ni

x4i ni 0 96 972 3584 7500 7776 0 19928 xi

X 0 24 12 0 12 24 0 72

xi

2

ni

X ni 0 12 12 0 12 12 0 0 xi

X 0 48 12 0 12 48 0 120

xi

3

ni

X 0 24 12 0 12 24 0 72

2

xi

ni

X 0 96 12 0 12 96 0 216

4

xi

X 0 48 12 0 12 48 0 0

ni

Wówczas dla pierwszego szeregu nasze pomocnicze wska´zniki przyjmuja¾warto´sci: m1 = X = 4; m2 =

872 4064 19928 ; m3 = ; m4 = ; 50 50 50

72 0 216 0 = 0; M2 = s2 = ; M3 = = 0; M4 = 50 50 50 50 48 72 120 216 b1 = d = ; b 2 = M2 = ; b3 = ; b4 = M4 = : 50 50 50 50 W analogiczny sposób moz·na wyliczy´c powyz·sze wska´zniki dla pozosta÷ych szeregów, mamy wówczas dla drugiego szeregu: M1 =

m1 = 4; m2 =

872 4064 20120 ; m3 = ; m4 = ; 50 50 50

72 408 ; M3 = 0; M4 = ; 50 50 40 72 160 408 b1 = ; b2 = ; b3 = ; b4 = : 50 50 50 50 Natomiast warto´sci wska´zników dla trzeciego szeregu wynosza¾ M1 = 0; M2 =

m1 = 4; m2 =

872 4124 20960 ; m3 = ; m4 = ; 50 50 50 4

3

ni

xi

X 0 96 12 0 12 96 0 216

4

ni

72 60 288 ; M3 = ; M4 = ; 50 50 50 48 72 132 288 b1 = ; b2 = ; b3 = ; b4 = : 50 50 50 50 Dla czwartego szeregu mamy nastepuj ¾ ace ¾ warto´sci M1 = 0; M2 =

m1 = 4; m2 =

872 4004 19040 ; m3 = ; m4 = ; 50 50 50

60 288 72 ; M3 = ; M4 = ; 50 50 50 48 72 132 288 b1 = ; b2 = ; b3 = ; b4 = : 50 50 50 50 Moz·emy teraz przystapi´ ¾ c do obliczania miar i porównania tych warto´sci dla poszczególnych szeregów. M1 = 0; M2 =

mediana M e dominanta D ´srednia X wariancja s2 WS AD g1 K v H

szereg I 4 4 4 1:44 0 0 0 2:08 30% 20%

szereg II 4 4 4 1:44 0 0 0 3:94 30% 24%

szereg III 4 3 4 1:44 1

szereg IV 4 5 4 1:44 1

5 6

5 6

0:69 2:78 30% 24%

0:69 2:78 30% 24%

W celu lepszego zrozumienia poszczególny miar przedstawimy jeszcze histogramy poszczególnych szeregów.

´ Cwiczenie 1 Dokona´c analizy wyników uzyskanych w powy·zszym przyk÷adzie.

5

2

Wykorzystanie pakietu analiza danych w arkuszu Excel

Przejd´zmy teraz do przypomnienia sobie moz·liwo´sci jakie daje w zakresie statystyki opisowej arkusz Excel (zak÷adam, z·e korzystali juz· Pa´nstwo z tego pakietu i znaja¾ jego podstawowe moz·liwo´sci). Jak wszyscy dobrze wiemy w arkuszu Excel znajduja¾ sie¾ funkcje statystyczne pozwalajace ¾ oblicza´c podstawowe miary statystyki opisowej. Jednakz·e czasami ze wzgledów ¾ praktycznych dobrze jest samemu opracowa´c formu÷ y w analogiczny sposób jak pokazany w przyk÷adzie z poprzedniego zjazdu. Dzieki ¾ tak opracowanym danym mamy wieksz ¾ a¾ kontrole¾ nad wynikami i moz·emy unikna´ ¾c b÷ edów ¾ wynikajacych ¾ chociaz·by z odstajacych ¾ lub nieprawid÷ owo wprowadzonych warto´s´c liczbowych. ´ Cwiczenie 2 Przygotowa´c w Excelu skoroszyt, dzieki ¾ któremu bedzie ¾ mo·zna stworzy´c tabele¾analogiczna¾jak w przyk÷adzie z zesz÷ego zjazdu. Sprawdzi´c poprawno´s´c wyników a nastepnie ¾ zamieni´c warto´s´c x1 = 5 na warto´s´c x1 = 3: Jak zmieni÷y sie¾ poszczególne wyniki, które miary nie uleg÷y zmianie? Nalez·y w tym miejscu zaznaczy´c, z·e arkusz Excel posiada wbudowany pakiet analizy danych, w którym moz·emy w jednym miejscu odnale´z´c wiekszo´ ¾ s´c omawianych powyz·ej miar. W celu skorzystania z pakietu analiza danych nalez·y wcze´sniej do÷ aczy´ ¾ c odpowiedni dodatek. ´ Cwiczenie 3 Dla danych z pliku analizaDanych.xls wyznaczy´c podstawowe miary statystyki opisowej korzystajac ¾ z pakietu analiza danych.

3

Statystyka opisowa w SPSS

Do wyznaczania podstawowych charakterystyk statystyki opisowej moz·na wykorzystywa´c bardziej specjalistyczne narzedzia ¾ informatyczne. Podczas tych studiów zapoznamy sie¾ z dwoma pakietami statystycznymi, mianowicie z pakietem SPSS oraz programem Statistica. W tym miejscu zapoznamy sie¾ podstawowymi moz·liwo´sciami programu SPSS. Ograniczymy sie¾ tutaj jedynie do wyznaczania statystyk opisowych. Pe÷ niejszej analizy moz·liwo´sci tego pakietu dokonamy na innych przedmiotach. Z uwagi na fakt, iz· jest oprogramowanie mniej znane niz· arkusz Excel musimy troche¾ dok÷ adniej omówi´c sposób w jaki moz·emy uzyska´c podstawowe statystyki opisowe. Po uruchomieniu programu domy´slnie pojawia sie¾

6

okno umoz·liwiajace ¾ wczytanie pliku na jakim chcemy dokonywa´c operacji

Po wczytaniu interesujacego ¾ nas pliku przykladSPSS1.sav chcemy wyznaczy´c podstawowe statystyki opisowe. W tym celu menu g÷ ównego wybieramy kolejno Analiza/Opis statystyczny/Statystyki opisowe tak jak na zamieszczonym

7

poniz·szej rysunku.

Nastepnie ¾ wybieramy interesujac ¾ a¾ nas zmienna¾ (wiek) i przechodzimy do opcji,

gdzie wybieramy wszystkie dostepne ¾ charakterystyki, klikamy przycisk dalej i nastepnie ¾ OK. Jako wynik otrzymujemy raport z warto´sciami wybranych charakterystyk. Oczywi´scie w pakiecie SPSS moz·na wyznaczy´c równiez· histogram. W tym celu postepujemy ¾ w nastepuj ¾ acy ¾ sposób: wybieramy z menu

8

wykresy a nastepnie ¾ histogram

nastepnie ¾ wybieramy jako zmienna¾ wiek i klikamy OK

Jako wynik otrzymujemy raport zawierajacy ¾ histogram. W tym miejscu pojawia sie¾ naturalne pytanie, czy moz·na w jaki´s inny sposób wyznaczy´c podstawowe statystyki oraz narysowa´c histogram w programie SPSS. 9

Odpowied´z na tak postawione pytanie jest twierdzaca. ¾ Wystarczy wybra´c z menu g÷ ównego Analiza/Opis statystyczny/ Czesto´ ¾ sci.

Nastepnie ¾ wybieramy interesujac ¾ a¾ nas zmienna. ¾

Klikamy w przyciski statystyki oraz wykresy, gdzie moz·emy wybra´c intere-

10

sujace ¾ nas statystyki opisowe oraz typ wykresu.

Jako ostateczny wynik otrzymujemy raport, w którym jednocze´snie mamy wyznaczone podstawowe statystyki oraz narysowany histogram.

11

´ Cwiczenie 4 Wyznaczy´c warto´sci podstawowych statystyk dla zmiennej wzrost w pliku przykladSPSS1.sav.

12