Studia podyplomowe w zakresie technik internetowych i komputerowej analizy danych Podstawy statystyki opisowej Adam Kiersztyn 3 godziny lekcyjne 2011-10-22 10.10 - 12.30
1
Miary asymetrii i koncentracji
Najprostszymi miarami asymetrii sa¾ wska´zniki sko´sno´sci (WS lub WQ ) dane wzorami WS = X D; WQ = (Q3
M e)
(M e
Q1 ) = Q3 + Q1
2 Me
oraz wspó÷ czynnik sko´sno´sci dany wzorem AD =
X
D s
:
Ponadto nalez·y jeszcze wprowadzi´c dwa proste wspó÷czynniki: zmienno´sci v i nierówno´sci H, okre´slone wzorami: s v= 100%; X d 100%: X Zanim przystapimy ¾ do omawiania pozosta÷ych miar asymetrii i koncentracji podamy wzory na momenty zwyk÷e, absolutne oraz centralne rzedu ¾ l: Wzory te podamy w dwóch wersjach, w wariancie dla danych niezgrupowanych oraz w nawiasie w wariancie dla szeregu przedzia÷ owego. Moment zwyk÷y ml rzedu ¾ lz próbki x1 ; x2 ; : : : ; xn obliczamy ze wzoru ! n k 1X l 1 X l ml = x ; mk = x_ ni n i=1 i N i=1 i H=
Moment zwyk÷ y jest, jak ÷ atwo zauwaz·y´c, ´srednia¾ arytmetyczna¾ l-tych poteg ¾ warto´sci xi : W podobny sposób de…niuje sie¾ moment absolutny al rzedu ¾ l z próbki x1 ; x2 ; : : : ; xn . Wyraz·a sie¾ on wzorem ! n k 1X 1 X l l al = jxi j ; al = jx_ i j ni n i=1 N i=1 i jest ´srednia¾ arytmetyczna¾ l-tych poteg ¾ modu÷ów warto´sci xi : Ponadto rozwaz·a sie¾ moment centralny rzedu ¾ l zadany wzorem ! n k 1X 1 X l l xi X ; Ml = x_ i X Ml = ni n i=1 N i=1 1
oraz centralny moment absolutny rzedu ¾ k dany wzorem n
1X bl = xi n i=1
k 1 X X ; bl = x_ i N i=1 l
X
l
ni
!
Nalez·y w tym miejscu zauwaz·y´c, z·e moment centralny rzedu ¾ 2 jest wariancja, ¾ natomiast centralny moment absolutny rzedu ¾ 1 jest odchyleniem przecietnym. ¾ Korzystajac ¾ z powyz·szych pomocniczych oznacze´n zde…niujmy wybrane miary asymetrii i koncentracji. Jednym z najcze´ ¾sciej stosowanych jest wspó÷ czynnik asymetrii (sko´sno´sci) dany wzorem g1 =
M3 ; s3
gdzie s jest odchyleniem standardowym, podobna¾ posta´c ma wspó÷ czynnik koncentracji (skupienia) dany wzorem K=
M4 ; s4
wspó÷ czynnik ten bywa równiez· nazywany kurtoza. ¾ W statystyce opisowej rozwaz·a sie¾ równiez· wspó÷ czynnik sp÷ aszczenia (eksces) dany wzorem g2 = K
3=
M4 s4
3:
Ponadto nalez·y zauwaz·y´c, z·e nie sa¾ to wszystkie sposoby opisu asymetrii i koncentracji. Moz·na tutaj wymieni´c m.in. krzywa¾ Lorenza czy tez· wspó÷ czynnik Giniego. Przyk÷ ad 1 Rozwa·zmy cztery szeregi przedzia÷owe o takich samych przedzia÷ach i ró·znych liczebno´sciach poszczególnych klas. ´srodek przedzia÷u 1 2 3 4 5 6 7
szereg I 0 6 12 14 12 6 0
szereg II 2 2 10 22 10 2 2
szereg III 0 2 20 12 10 4 2
szereg IV 2 4 10 12 20 2 0
Wyznaczy´c ´srednia¾ arytmetyczna¾ i cztery pierwsze momenty ka·zdego typu dla poszczególnych szeregów, a nastepnie ¾ obliczy´c wprowadzone wcze´sniej miary koncentracji i asymetrii. Rozwiazanie: ¾ W kroku pierwszym obliczymy ´srednia¾ arytmetyczna¾ dla poszczególnych szeregów X1 =
1 (1 0 + 2 6 + 3 12 + 4 14 + 5 12 + 6 6 + 7 0) = 4 50 2
1 (1 2 + 2 2 + 3 10 + 4 22 + 5 10 + 6 2 + 7 2) = 4 50 1 X3 = (1 0 + 2 2 + 3 20 + 4 12 + 5 10 + 6 4 + 7 2) = 4 50 1 X4 = (1 2 + 2 4 + 3 10 + 4 12 + 5 20 + 6 2 + 7 0) = 4 50 Zatem w kaz·dym z rozwaz·anych przypadków ´srednia wynosi 4, dzieki ¾ takiemu zbiegowi okoliczno´sci bedzie ¾ nam ÷ atwiej przeprowadzi´c dalsza¾ cze´s´c oblicze´n. Z uwagi na fakt, z·e wszystkie obserwacje sa¾nieujemny momenty zwyk÷e i momenty absolutne poszczególnych rzedów ¾ sa¾jednakowe. Zatem nie musimy oblicza´c momentów absolutnych. Zanim przejdziemy do obliczania warto´s´c poszczególnych momentów dla kaz·dego szeregu oddzielnie przygotujmy sobie tabele¾ zawierajac ¾ a¾ dodatkowe obliczenia (oczywi´scie tabelk¾ e ta¾ wykonujemy w Excelu wszyscy wspólnie krok po kroku) X2 =
x2i 1 4 9 16 25 36 49
x3i 1 8 27 64 125 216 343
x4i xi X 1 3 16 2 81 1 256 0 625 1 1296 2 2401 3
xi
X
2
xi
9 4 1 0 1 4 9
X 27 8 1 0 1 8 27
3
xi
X 81 16 1 0 1 16 81
4
X
xi 3 2 1 0 1 2 3
X
xi 9 4 1 0 1 4 9
Teraz moz·emy w prosty sposób domnaz·ajac ¾ poszczególne elementy powyz·szej tabeli przez odpowiednie liczebno´sci, sumujac ¾ kolumny i dzielac ¾ przez liczebno´s´c
3
2
xi
X 27 8 1 0 1 8 27
3
xi
X 81 16 1 0 1 16 81
4
ca÷ kowita¾ otrzymujemy wymagane momenty. Dla pierwszego szeregu mamy:
suma
x2i ni 0 24 108 224 300 216 0 872 xi
suma
X 0 12 12 0 12 12 0 48
x3i ni 0 48 324 896 1500 1296 0 4064 ni
x4i ni 0 96 972 3584 7500 7776 0 19928 xi
X 0 24 12 0 12 24 0 72
xi
2
ni
X ni 0 12 12 0 12 12 0 0 xi
X 0 48 12 0 12 48 0 120
xi
3
ni
X 0 24 12 0 12 24 0 72
2
xi
ni
X 0 96 12 0 12 96 0 216
4
xi
X 0 48 12 0 12 48 0 0
ni
Wówczas dla pierwszego szeregu nasze pomocnicze wska´zniki przyjmuja¾warto´sci: m1 = X = 4; m2 =
872 4064 19928 ; m3 = ; m4 = ; 50 50 50
72 0 216 0 = 0; M2 = s2 = ; M3 = = 0; M4 = 50 50 50 50 48 72 120 216 b1 = d = ; b 2 = M2 = ; b3 = ; b4 = M4 = : 50 50 50 50 W analogiczny sposób moz·na wyliczy´c powyz·sze wska´zniki dla pozosta÷ych szeregów, mamy wówczas dla drugiego szeregu: M1 =
m1 = 4; m2 =
872 4064 20120 ; m3 = ; m4 = ; 50 50 50
72 408 ; M3 = 0; M4 = ; 50 50 40 72 160 408 b1 = ; b2 = ; b3 = ; b4 = : 50 50 50 50 Natomiast warto´sci wska´zników dla trzeciego szeregu wynosza¾ M1 = 0; M2 =
m1 = 4; m2 =
872 4124 20960 ; m3 = ; m4 = ; 50 50 50 4
3
ni
xi
X 0 96 12 0 12 96 0 216
4
ni
72 60 288 ; M3 = ; M4 = ; 50 50 50 48 72 132 288 b1 = ; b2 = ; b3 = ; b4 = : 50 50 50 50 Dla czwartego szeregu mamy nastepuj ¾ ace ¾ warto´sci M1 = 0; M2 =
m1 = 4; m2 =
872 4004 19040 ; m3 = ; m4 = ; 50 50 50
60 288 72 ; M3 = ; M4 = ; 50 50 50 48 72 132 288 b1 = ; b2 = ; b3 = ; b4 = : 50 50 50 50 Moz·emy teraz przystapi´ ¾ c do obliczania miar i porównania tych warto´sci dla poszczególnych szeregów. M1 = 0; M2 =
mediana M e dominanta D ´srednia X wariancja s2 WS AD g1 K v H
szereg I 4 4 4 1:44 0 0 0 2:08 30% 20%
szereg II 4 4 4 1:44 0 0 0 3:94 30% 24%
szereg III 4 3 4 1:44 1
szereg IV 4 5 4 1:44 1
5 6
5 6
0:69 2:78 30% 24%
0:69 2:78 30% 24%
W celu lepszego zrozumienia poszczególny miar przedstawimy jeszcze histogramy poszczególnych szeregów.
´ Cwiczenie 1 Dokona´c analizy wyników uzyskanych w powy·zszym przyk÷adzie.
5
2
Wykorzystanie pakietu analiza danych w arkuszu Excel
Przejd´zmy teraz do przypomnienia sobie moz·liwo´sci jakie daje w zakresie statystyki opisowej arkusz Excel (zak÷adam, z·e korzystali juz· Pa´nstwo z tego pakietu i znaja¾ jego podstawowe moz·liwo´sci). Jak wszyscy dobrze wiemy w arkuszu Excel znajduja¾ sie¾ funkcje statystyczne pozwalajace ¾ oblicza´c podstawowe miary statystyki opisowej. Jednakz·e czasami ze wzgledów ¾ praktycznych dobrze jest samemu opracowa´c formu÷ y w analogiczny sposób jak pokazany w przyk÷adzie z poprzedniego zjazdu. Dzieki ¾ tak opracowanym danym mamy wieksz ¾ a¾ kontrole¾ nad wynikami i moz·emy unikna´ ¾c b÷ edów ¾ wynikajacych ¾ chociaz·by z odstajacych ¾ lub nieprawid÷ owo wprowadzonych warto´s´c liczbowych. ´ Cwiczenie 2 Przygotowa´c w Excelu skoroszyt, dzieki ¾ któremu bedzie ¾ mo·zna stworzy´c tabele¾analogiczna¾jak w przyk÷adzie z zesz÷ego zjazdu. Sprawdzi´c poprawno´s´c wyników a nastepnie ¾ zamieni´c warto´s´c x1 = 5 na warto´s´c x1 = 3: Jak zmieni÷y sie¾ poszczególne wyniki, które miary nie uleg÷y zmianie? Nalez·y w tym miejscu zaznaczy´c, z·e arkusz Excel posiada wbudowany pakiet analizy danych, w którym moz·emy w jednym miejscu odnale´z´c wiekszo´ ¾ s´c omawianych powyz·ej miar. W celu skorzystania z pakietu analiza danych nalez·y wcze´sniej do÷ aczy´ ¾ c odpowiedni dodatek. ´ Cwiczenie 3 Dla danych z pliku analizaDanych.xls wyznaczy´c podstawowe miary statystyki opisowej korzystajac ¾ z pakietu analiza danych.
3
Statystyka opisowa w SPSS
Do wyznaczania podstawowych charakterystyk statystyki opisowej moz·na wykorzystywa´c bardziej specjalistyczne narzedzia ¾ informatyczne. Podczas tych studiów zapoznamy sie¾ z dwoma pakietami statystycznymi, mianowicie z pakietem SPSS oraz programem Statistica. W tym miejscu zapoznamy sie¾ podstawowymi moz·liwo´sciami programu SPSS. Ograniczymy sie¾ tutaj jedynie do wyznaczania statystyk opisowych. Pe÷ niejszej analizy moz·liwo´sci tego pakietu dokonamy na innych przedmiotach. Z uwagi na fakt, iz· jest oprogramowanie mniej znane niz· arkusz Excel musimy troche¾ dok÷ adniej omówi´c sposób w jaki moz·emy uzyska´c podstawowe statystyki opisowe. Po uruchomieniu programu domy´slnie pojawia sie¾
6
okno umoz·liwiajace ¾ wczytanie pliku na jakim chcemy dokonywa´c operacji
Po wczytaniu interesujacego ¾ nas pliku przykladSPSS1.sav chcemy wyznaczy´c podstawowe statystyki opisowe. W tym celu menu g÷ ównego wybieramy kolejno Analiza/Opis statystyczny/Statystyki opisowe tak jak na zamieszczonym
7
poniz·szej rysunku.
Nastepnie ¾ wybieramy interesujac ¾ a¾ nas zmienna¾ (wiek) i przechodzimy do opcji,
gdzie wybieramy wszystkie dostepne ¾ charakterystyki, klikamy przycisk dalej i nastepnie ¾ OK. Jako wynik otrzymujemy raport z warto´sciami wybranych charakterystyk. Oczywi´scie w pakiecie SPSS moz·na wyznaczy´c równiez· histogram. W tym celu postepujemy ¾ w nastepuj ¾ acy ¾ sposób: wybieramy z menu
8
wykresy a nastepnie ¾ histogram
nastepnie ¾ wybieramy jako zmienna¾ wiek i klikamy OK
Jako wynik otrzymujemy raport zawierajacy ¾ histogram. W tym miejscu pojawia sie¾ naturalne pytanie, czy moz·na w jaki´s inny sposób wyznaczy´c podstawowe statystyki oraz narysowa´c histogram w programie SPSS. 9
Odpowied´z na tak postawione pytanie jest twierdzaca. ¾ Wystarczy wybra´c z menu g÷ ównego Analiza/Opis statystyczny/ Czesto´ ¾ sci.
Nastepnie ¾ wybieramy interesujac ¾ a¾ nas zmienna. ¾
Klikamy w przyciski statystyki oraz wykresy, gdzie moz·emy wybra´c intere-
10
sujace ¾ nas statystyki opisowe oraz typ wykresu.
Jako ostateczny wynik otrzymujemy raport, w którym jednocze´snie mamy wyznaczone podstawowe statystyki oraz narysowany histogram.
11
´ Cwiczenie 4 Wyznaczy´c warto´sci podstawowych statystyk dla zmiennej wzrost w pliku przykladSPSS1.sav.
12