Tema 5. Muestreo y distribuciones muestrales

1 Tema 5. Muestreo y distribuciones muestrales En este tema: • Muestreo y muestras aleatorias simples. • Distribuci´ on de la media muestral: • ...
0 downloads 0 Views 342KB Size
1

Tema 5. Muestreo y distribuciones muestrales En este tema: •

Muestreo y muestras aleatorias simples.



Distribuci´ on de la media muestral:





Esperanza y varianza.



Distribuci´ on exacta en el caso normal.



Distribuci´ on aproximada en el caso general (teorema central del l´ımite).

Distribuci´ on de la varianza muestral: •

Esperanza.



Distribuci´ on en el caso normal.

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

2

Muestreo Motivaci´on •

En muchos casos se desea obtener informaci´ on estad´ıstica sobre poblaciones numerosas: •

Situaci´ on laboral de las personas en edad de trabajar en Espa˜ na.



Fiabilidad de un modelo de autom´ ovil en un a˜ no.



Precipitaci´ on anual en la Comunidad de Madrid.



Puede ser imposible (por falta de recursos) obtener la informaci´on relativa a todos los individuos.



Se estudia una muestra significativa de la poblaci´ on. •

Un subconjunto de la poblaci´ on que permita obtener informaci´ on fiable sobre el total de dicha poblaci´ on.

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

3

Muestras aleatorias simples C´omo seleccionar una muestra •

Tama˜ no reducido.



Ausencia de sesgos. •

Conclusiones obtenidas de la muestra son v´ alidas para la poblaci´ on.



Facilidad en la definici´ on de la muestra.



Mejor alternativa: Muestras aleatorias simples •



Cada miembro de la poblaci´ on tiene la misma probabilidad de pertenecer a la muestra. La selecci´ on se realiza de manera independiente. La selecci´ on de un individuo concreto no afecta a la probabilidad de seleccionar cualquiera de los otros.

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

4

Procedimiento de inferencia • • •

Partiendo de la distribuci´ on de la variable aleatoria en la muestra Obtener informaci´ on sobre distribuci´ on de la variable en la poblaci´on Valores de inter´es: c´alculo de estad´ısticos para la media, varianza, proporciones DATOS POBLACIÓN 15,00 11,25 7,50

!

Muestreo

3,75 0

Parámetros población, !

DATOS MUESTRA

9,5

10,0

!

7,5 5,0 2,5

3,8

4,5

Inferencia

1,6 0,2

0,8

1,5

0

Parámetros muestra, l

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

5

Ejemplo de muestreo e inferencia Ejemplo Consideremos el ejemplo de la figura anterior: • Poblaci´ on compuesta por 24 individuos. •

Variable aleatoria de inter´es: •



Tiempo para completar una consulta m´edica.

Valores: Poblaci´ on



5,1 1,0 9,0

1,0 2,2 5,1

0,9 1,5 0,2

3,8 4,8 2,3

10,2 1,6 0,8

2,1 8,8 7,8

9,5 4,3 7,7

4,5 1,0 1,5

Promedio de la poblaci´ on: 4, 0

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

6

Ejemplo de muestreo e inferencia Muestra 1 •

Muestra seleccionada en la figura, tama˜ no 7: Muestra

3,8

9,5

4,8

1,6

0,2

0,8



Estad´ıstico de inter´es: promedio de la muestra 3, 1.



Error (sesgo) relativo: (4, 0 − 3, 1)/4, 0 = 0, 225.

1,5

Cambios en el muestreo •

Selecciones alternativas de los elementos de la muestra.



Aumento del tama˜ no de la muestra.

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

7

Ejemplo de muestreo Cambios en el tama˜no muestral •

Si a la muestra del ejemplo anterior le a˜ nadimos nuevos elementos, el promedio muestral cambia.



Se aproxima al valor de la media poblacional CAMBIO EN EL PROMEDIO CON EL TAMAÑO MUESTRAL 6,0 4,6 4,5

3,9 3,1

3,3

7

8

3,6

4,0

4,1

11

12

4,6

4,4

4,2

4,1

15

16

17

4,4

4,4

4,3

4,3

18

19

20

21

4,0

4,2

4,0

22

23

24

3,0

1,5

0

9

10

13

14

Tamaño muestral

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

8

Ejemplo de muestreo Selecci´on de observaciones •

Si seleccionamos las primeras 7 observaciones: 5,1 1,0 0,9 3,8 18,2 2,1 9,5.



Promedio de la muestra: 5, 8.

Cambios para diferentes selecciones •

Todas las selecciones posibles de 7 observaciones (346.104 posibilidades): DISTRIBUCION DE MEDIAS MUESTRALES TAMAÑO 7 25000

20000

15000

10000

5000

0

1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 8

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

9

Distribuciones en el muestreo Distribuci´on de la media muestral •

Para todas las muestras de tama˜ no 7 y 17 obtenemos: DISTRIBUCION DE MEDIAS MUESTRALES TAMAÑO 7

25000

DISTRIBUCION DE MEDIAS MUESTRALES TAMAÑO 17 60000

20000 45000

15000

30000

10000

15000 5000

0

1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 8

0

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 8

Tema 5

10

Distribuciones en el muestreo Distribuci´on de la varianza muestral •

Se obtienen resultados similares para otros estad´ısticos



Para la desviaci´ on t´ıpica de muestras de tama˜ no 7 obtenemos: DESVIACIONES TIPICAS MUESTRAS TAMAÑO 7 30000

22500

15000

7500

0

0,5 0,7 0,9 1,1 1,2 1,4 1,6 1,8 1,9 2,1 2,3 2,5 2,6 2,8 3,0 3,2 3,3 3,5 3,7 3,9 4,0 4,2 4,4 4,6 4,7

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

11

Distribuciones en el muestreo Conclusiones •

Una muestra aleatoria simple de tama˜ no n de una v.a. X es un conjunto de v.a. independientes, todas con la misma distribuci´on que X : {Xi }ni=1 i.i.d.



El valor del promedio muestral es una variable aleatoria (los estad´ısticos son variables aleatorias). •

Depende de la selecci´ on (aleatoria) de los individuos en la muestra:



Distribuci´ on muestral del estad´ıstico: distribuci´ on de probabilidad del valor de inter´es para todas las muestras del mismo tama˜ no.



La distribuci´ on muestral cambia con el tama˜ no de la muestra. •

La variabilidad de los estad´ısticos muestrales disminuye con el tama˜ no de la muestra.

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

12

La distribuci´on de la media muestral El problema de inter´es •

La media poblacional es un par´ametro de gran inter´es en muchas situaciones pr´acticas.



Por ejemplo, queremos conocer el promedio de:





los ingresos familiares en Espa˜ na el a˜ no 2007.



la proporci´ on de pr´estamos morosos el u ´ltimo mes.



el precio de compra de viviendas en la Comunidad de Madrid el pasado mes.

A partir de una muestra (reducida) de valores queremos calcular: •

Una buena aproximaci´ on al valor correcto (inevitablemente con error).



Y una estimaci´ on del error en la aproximaci´ on.

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

13

La distribuci´on de la media muestral Ejemplo •

Informaci´ on sobre el gasto familiar en Espa˜ na



Disponemos de los datos siguientes (gasto anual por hogar, EPF) Gasto

32545,76 4855,80 16240,88

3140,24 7449,74 9840,12

25205,64 3466,50 14534,96

2474,28 4400,80 14960,00

10242,34 4740,00

721,16 10830,00

GASTO ANUAL 40000

30000

20000

10000

0

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

14

La distribuci´on de la media muestral Algunas respuestas •

Muestra de tama˜ no n, {Xi }ni=1 , de una variable aleatoria X (gasto de hogares).



Queremos estimar la media nacional (esperanza de X ) a partir de la muestra.



Se define el estad´ıstico media muestral como X =

n 1X Xi n i=1

LA MEDIA MUESTRAL ES UNA VARIABLE ALEATORIA •

El valor esperado de la media muestral es la media de la poblaci´ on # " n 1X Xi = E[X ] E n i=1



Estimamos la media de la poblaci´ on a partir de la media de la muestra. •

En nuestro ejemplo: 10353,01 euros

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

15

La distribuci´on de la media muestral M´as datos de la distribuci´on •

Media de una muestra en general diferente de la media de la poblaci´ on



¿Podemos conocer la magnitud del error que estamos cometiendo? • • •

Depende de la distribuci´ on de la media muestral En particular, de su variabilidad (desviaci´ on respecto de la media) ¿En cual de los casos siguientes tenemos menos error? MEDIAS MUESTRA TAMAÑO 7 - MEDIA = 4,0

25000

MEDIAS MUESTRA TAMAÑO 17 - MEDIA = 4,0 60000

20000 45000

15000

30000

10000

15000 5000

0

1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 8

0

1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 8

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

16

Distribuci´on de la media muestral La variabilidad de la media muestral •

La varianza de la media muestral, X , (una medida del error) es # " n 1 1X def . Xi = σ 2 Var[X ] = Var n n i=1



En el ejemplo anterior, Var[¯ x ] = 76.458.643 y σ[¯ x ] = 8.744 euros.



El valor de la varianza decrece si n aumenta.



Podemos reducir el error aumentando el tama˜ no de la muestra. •

La reducci´ on en el error es lenta.



Para reducir el error (medido por la desviaci´ on t´ıpica) a la mitad debemos aumentar el tama˜ no de la muestra 4 veces.

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

17

Distribuci´on de la media muestral La distribuci´on de la media muestral •

El valor de la varianza de la media muestral s´ olo nos dice si el error puede ser grande o peque˜ no.



Para obtener una respuesta m´as precisa deber´ıamos conocer la distribuci´ on de la media muestral.



Si la variable X tiene una distribuci´ on normal, entonces X =

n p 1X Xi ∼ N(E[X ], σ 2 /n) n i=1

(por ser combinaci´ on lineal de v.a. indep. con dist. normal, ver Tema 4) Luego, X − E[X ] p ∼ N(0, 1) σ 2 /n Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

18

Distribuci´on de la media muestral El teorema central del l´ımite •

Distribuci´ on de la media muestral si X no es normal



Si cumple ciertas condiciones: Teorema central del l´ımite (ver Tema 3) no n obtenida de Dada una muestra aleatoria simple {Xi }ni=1 de tama˜ una variable aleatoria X con media E[X ] y varianza σ 2 finitas, se cumple que Pn 1 i=1 Xi − E[X ] n p → N(0, 1) σ 2 /n cuando n → ∞.



La distribuci´ on de la media muestral se parece a una distribuci´on normal para muestras grandes.



Aplicaci´ on similar al caso anterior cuando se tienen muestras grandes.

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

19

La distribuci´on de la varianza muestral La varianza muestral •



En muchos casos es importante conocer el valor de la varianza de la poblaci´ on. •

Para aplicar el teorema central del l´ımite.



Para estimar riesgos en inversiones (el riesgo depende de la varianza).



Para estimar desigualdades en ingresos, rentas, etc.

Se define el estad´ıstico varianza muestral como n

X =

1 X (Xi − X )2 n−1 i=1

LA VARIANZA MUESTRAL ES UNA VARIABLE ALEATORIA •

Queremos relacionar su media y su varianza con las de la poblaci´on.



Y si es posible, identificar su distribuci´ on.

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

20

La distribuci´on de la varianza muestral La esperanza de la varianza muestral •

¯ denota la media muestral, se tiene que Si X " # n 1X n−1 2 2 ¯ E (Xi − X ) = σ n i=1 n



El valor esperado de esa v.a. no es la varianza de la poblaci´ on.



OJO: la varianza de la media muestral tampoco es la varianza de la poblaci´ on.



Por eso definimos la varianza muestral como S2 =

n 1 X (Xi − X )2 n − 1 i=1

dividiendo entre n − 1 y no entre n. •

Con esta definici´ on, tenemos E[S 2 ] = σ 2 . •

El valor muestral de S 2 (s 2 ) se puede emplear como una aproximaci´ on de la varianza de la poblaci´ on.

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5

21

La distribuci´on de la varianza muestral Distribuci´on de la varianza muestral •



Nos gustar´ıa tener m´as informaci´ on sobre la distr. de la varianza muestral. •

La varianza muestral es no negativa.



La distribuci´ on de la varianza muestral es asim´etrica a la derecha.

Adem´as, si la variable X tiene distribuci´ on normal (ver Tema 3) n n−1 2 1 X S = 2 (Xi − X )2 ∼ χ2n−1 2 σ σ i=1

distribuci´ on χ2 (chi-cuadrado) con n − 1 grados de libertad. DENSIDAD CHI CUADRADO

Funci´ on de distribuci´on en las tablas 2,5%

95%

!!"#"!$

2,5%

!!"#%&$

Estad´ıstica I. Grado en Administraci´ on de Empresas 08/09

Tema 5