Pruebas de Bondad de Ajuste

1 Facultad de Ingenier´ıa IMERL ´ PROBABILIDAD Y ESTADISTICA Curso 2008 Pruebas de Bondad de Ajuste En esta secci´on estudiaremos el problema de ajus...

Author: María Dolores Paz Sosa

4 downloads 0 Views 103KB Size

Report

Download PDF

Recommend Documents

Pruebas de bondad de ajuste

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA

PRUEBAS DE BONDAD DE AJUSTE y DE INDEPENDENCIA

Contrastes de la bondad del ajuste y tablas de contingencia

Una paradoja en el test de bondad de ajuste

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

4 Contrastes del Chi 2 de bondad del ajuste

PRUEBAS DE USABILIDAD PRUEBAS DE USABILIDAD

Pruebas de Funcionalidad. Pruebas de Funcionalidad

3 AJUSTE DE FUNCIONES

LEY DE AJUSTE CUBANO

TEMARIO DE PRUEBAS DE

AJUSTE DE EMISORA ATR681D

PROYECTOS DE BONDAD por Robert Costa

Pruebas de Casos de Uso

CONVOCATORIA DE PRUEBAS DE ACCESO

CONVOCATORIA DE PRUEBAS DE APTITUD

PRUEBAS DE ACCESO DE GALICIA

Pruebas de Calidad de Agua

Reglamento de pruebas de Canicross

CONVOCATORIA DE PRUEBAS DE ACCESO

AVIONES Y RECTAS DE AJUSTE

CONVOCATORIA DE PRUEBAS DE ACCESO

Ajuste de curvas de crecimiento fetal medio

1 Facultad de Ingenier´ıa IMERL ´ PROBABILIDAD Y ESTADISTICA Curso 2008

Pruebas de Bondad de Ajuste En esta secci´on estudiaremos el problema de ajuste a una distribuci´on. Dada una muestra X1 , X2 , · · · , Xn de variables i.i.d. con distribuci´on F , un problema b´asico en estad´ıstica es encontrar un modelo para los datos. Por ejemplo, supongamos que nos interesa ver hasta qu´e punto es razonable suponer que los datos provienen de una cierta distribuci´on F0 . Las pruebas estad´ısticas destinadas a la resoluci´on de este tipo de problemas son las llamadas Pruebas de Bondad de Ajuste. La mayor´ıa de ellas se basa en la convergencia de la funci´ on de distribuci´ on emp´ırica de la muestra: Fn (x) =

n X

1{Xi ≤x} , a la funci´on de distribuci´on subyacente a la muestra

i=1

F . Dicha convergencia est´a garantizada en condiciones muy generales por el Teorema de GlivenkoCantelli, tambi´en llamado Teorema Fundamental de la Estad´ıstica. En esta secci´on se incluyen algunas pruebas muy generales y conocidas (χ2 , Kolmogorov-Smirnov), y otras pruebas m´as espec´ıficas (Lilliefors, D’Agostino).

1

La Prueba χ2 de Pearson

La primera prueba de bondad de ajuste fue propuesta por Karl Pearson en el a˜ no 1900. Pearson propuso evaluar el ajuste de una funci´on de distribuci´on F0 a una muestra de variables i.i.d., mediante el uso de un estad´ıstico de tipo cuadr´atico. Este planteamiento constituye la primera evaluaci´on rigurosa de la calidad del ajuste a una distribuci´on. Anteriormente a Pearson s´olo se intentaron comparaciones subjetivas. Citemos como ejemplo el del uso de la distribuci´on normal en la teor´ıa de errores. Dicha distribuci´ on fue introducida por Gauss en 1801 para modelar los errores en la determinaci´on de la posici´ on del asteroide Ceres. A˜ nos despu´es Laplace y Poisson llegaron a ella en versiones primigenias del Teorema

2

LA PRUEBA DE KOLMOGOROV Y SMIRNOV

2

Central del L´ımite. Poisson agregar´ıa contraejemplos con l´ımites no gaussianos. La primera justificaci´on de la aplicabilidad del modelo fue dada por un ingeniero alem´an: G. Hagen, en 1837. Pero hubo que esperar casi un siglo hasta que alguien (Pearson) propusiera verificar la adecuaci´on del modelo. En el caso de hip´otesis nula compuesta, en que es necesario estimar par´ametros, las distribuciones asint´oticas de los estad´ısticos del tipo χ2 dependen del m´etodo de estimaci´on utilizado. Fundamentaci´ on de la prueba Dada una muestra X1 , X2 , · · · , Xn de variables i.i.d., con funci´on de distribuci´on F , y una distribuci´ on F0 , Pearson considera la partici´on en k clases A1 , A2 , · · · , Ak del soporte de F0 y a partir de ella propone el estad´ıstico k X (Xni − npi )2 S= npi i=1 donde Xni =

n X

1Ai (Xj ) y pi = F (Ai ). La distribuci´on de S depende en general del n´ umero de clases

j=1

k, del vector de probabilidades (p1 , · · · , pk ) y del tama˜ no de muestra n. En un art´ıculo de 1973, Katti da tables exactas para el caso uniforme. De acuerdo al siguiente teorema, que enunciamos sin demostraci´on, S tiene, bajo la hip´otesis nula distribuci´on χ2 con k − 1 grados de libertad, mientras que bajo la alternativa “F 6= F0 ”, S tiende casi seguramente a infinito. Teorema Sea p1 , p2 , · · · , pk una k-upla de n´ umeros no negativos que suman 1, y sean Z1 , Z2 , · · · vectores multinomiales e independientes con par´ ametros {1, (p1 , p2 , · · · , pk )}. Si definimos Xn =

n X

Zm , el estad´ıstico

m=1

S=

k X (Xni − npi )2 i=1

npi

tiene distribuci´ on asint´ otica χ2 con k − 1 grados de libertad

2

La Prueba de Kolmogorov y Smirnov

Esta prueba de ajuste se basa en el llamado Teorema Fundamental de la Estad´ıstica, que enunciamos a continuaci´on Teorema Fundamental de la Estad´ıstica (Glivenko-Cantelli) Sea X1 , X2 , · · · , Xn , · · · una sucesi´on de variables aleatorias i.i.d. con distribuci´on F , y sea Fn la funci´on de distribuci´on emp´ırica para la muestra de tama˜ no n, es decir Fn (x) =

n X i=1

1(Xi ,+∞) (x) =

n X i=1

1[−∞,x) (Xi )

2

LA PRUEBA DE KOLMOGOROV Y SMIRNOV

3

entonces supx∈IR |Fn (x) − F (x)| −→ 0 con probabilidad 1. Supongamos entonces que tenemos una muestra X1 , X2 , · · · , Xn proveniente de una distribuci´ on F y queremos realizar la prueba de hip´otesis H0 : F = F0 y H1 : F 6= F0 para una cierta distribuci´ on F0 . El teorema anterior sugiere el uso del siguiente estad´ıstico KS = supx∈IR |Fn (x) − F0 (x)| Bajo la hip´otesis nula KS (que depende de n) tender´a a cero, mientras que, bajo la hip´otesis alternativa, la descomposici´on KS = supx∈IR |Fn (x) − F0 (x)| = supx∈IR |Fn (x) − F (x) + F (x) − F0 (x)| nos muestra que KS tiende a supx∈IR |F (x) − F0 (x)| = 6 0 de modo que la prueba es consistente frente a cualquier alternativa. Observaciones 1. N´otese en primer lugar que, por la forma de la funci´on de distribuci´on emp´ırica, si el supremo involucrado en el c´alculo del estad´ıstico KS no se alcanza en alguno de los puntos de la muestra, entonces tomar´a en valor ∆− i = limx→X − |Fn (x) − F0 (Xi )| i

para alguno de los puntos de la muestra. Calcular KS se reduce entonces a calcular: o

n

KS = max max1≤i≤n {|Fn (Xi ) − F0 (Xi )|}, max1≤i≤n {∆− i } = max {max1≤i≤n {|i/n − F0 (Xi∗ )|}, max1≤i≤n {|(i − 1)/n − F0 (Xi∗ )|}}} 2. La distribuci´on bajo H0 del estad´ıstico KS no depende de la distribuci´on subyacente a la muestra. Sea la muestra X1 , X2 , · · · , Xn de variables i.i.d. con distribuci´on F = F0 . Si hacemos el cambio de variables Ui = F0 (Xi ) y u = F0 (x) tendremos KS = supx∈IR |Fn (x) − F0 (x)| = supx∈IR |

n X

1{Xi ≤x} − F0 (x)| =

i=1

supx∈IR |

n X i=1

1{F0 (Xi )≤F0 (x)} − F0 (x)| = supu∈[0,1] |

n X

1{Ui ≤u} − u|

i=1

Es decir que la distribuci´on del estad´ıstico de Kolmogorov y Smirnov para la muestra X1 , X2 , · · · , Xn

3

LA PRUEBA DE NORMALIDAD DE LILLIEFORS

4

es igual a la del estad´ıstico para la muestra uniforme U1 , U2 , · · · , Un (recu´erdese que las variables Ui tienen distribuci´on uniforme en [0,1]). Para tama˜ nos muestrales peque˜ nos una tabla de Montecarlo basada en la distribuci´on uniforme, da los percentiles para poder aplicar la prueba de Kolmogorov-Smirnov. 3. En el caso asint´otico, los percentiles para la aplicaci´on de la prueba vienen dados por un famoso resultado debido a Donsker (1952). 4. En caso en que la distribuci´on dependa de algunos par´ametros desconocidos, si la muestra es suficientemente grande, podemos dividirla en dos, usando una primera parte para estimar los par´ametros y la segunda para aplicar la prueba de ajuste a la distribuci´on en la que se sustituyen los par´ametros por sus respectivos estimadores. Esta forma de proceder involucra varias decisiones sobre la divisi´on de la muestra. En particular, decidir qu´e parte de la muestra se usar´a para estimar los par´ametros y qu´e parte para aplicar la prueba, es una arbitrariedad; para evitarla, se puede volver a aplicar el procedimiento estimando los par´ametros con la segunda parte de la muestra y aplicando la prueba de ajuste con la primera (en este caso es razonable rechazar si alguna de las dos pruebas arrojara un resultado significativo).

3

La Prueba de Normalidad de Lilliefors

Esta prueba de normalidad utiliza el estad´ıstico de Kolmogorov y Smirnov, en el caso en que la media y el desv´ıo de la distribuci´on (desconocidos) se estiman utilizando toda la muestra. Es decir que el estad´ıstico vale ¯n x−X )| KSL = supx∈IR |Fn (x) − Φ( sn donde Φ es la funci´on de distribuci´on normal t´ıpica, Si determinamos la regi´on cr´ıtica usando la tabla de Kolmogorov y Smirnov, el resultado es una prueba muy conservadora. Lilliefors ha tabulado por el m´etodo de Montecarlo los percentiles de este estad´ıstico. De la misma forma, existe un prueba de exponencialidad de similares caracter´ısticas.

4

La Prueba de Normalidad de D’Agostino

Este estad´ıstico compara (a menos de una constante) un estimador lineal del desv´ıo t´ıpico en el caso de una distribuci´on normal, con el desv´ıo muestral. Para la muestra aleatoria simple X1 , X2 , · · · , Xn y la prueba cuya hip´otesis nula es H0 : “la muestra tiene distribuci´on normal” y cuya hip´otesis alternativa es la complementaria, el estad´ıstico de D’Agostino vale: n Xi∗ i − n+1 X 2 D= n2 sn i=1 P ¯ 2. donde s2n = n1 ni=1 (Xi − X) El valor esperado de este estad´ıstico es aproximadamente

1 √ . 2 π

Para tama˜ nos muestrales peque˜ nos se

4

LA PRUEBA DE NORMALIDAD DE D’AGOSTINO

5

dispone de una tabla de simulaci´on que da un criterio de decisi´on. Para muestras de tama˜ no grande, la variable D − 2√1 π √ n √ 1 12 3−27+2π 24π

se puede aproximar por una variable normal t´ıpica.

2