TEMA V. Muestreo y distribuciones muestrales

TEMA V Muestreo y distribuciones muestrales V.1. Introducci´ on Consideramos un experimento aleatorio para el cual estamos dispuestos a escoger u...
6 downloads 1 Views 312KB Size
TEMA

V

Muestreo y distribuciones muestrales

V.1.

Introducci´ on

Consideramos un experimento aleatorio para el cual estamos dispuestos a escoger un modelo, posiblemente con uno o varios par´ametros que tendremos que ajustar. Ejemplos Me interesa una moneda para tirar a cara o cruz. El experimento es “Tirar la moneda” y la variable X corresponde al resultado, su distribuci´on se describe como: X puede tomar dos valores c (Cara) o + (Cruz) con las probabilidades: P[X = c] = p y P[X = +] = 1 − p. p es por lo tanto la probabilidad de que salga cara, y es un par´ametro de nuestro modelo. En el caso en que confiamos en que la moneda no est´a trucada, nuestro modelo considerar´a que p = 1/2. Para sacar informaci´on sobre p y comprobar en particular que la moneda no est´a trucada, repetiremos un cierto n´ umero de veces el experimento. Para las pr´oximas elecciones generales, queremos determinar la proporci´ on de gente que tiene intenci´on de ir a votar, es decir queremos estimar la tasa de participaci´on. El censo electoral para Espa˜ na tiene unos 32 millones de personas. Es claramente imposible entrevistar a todas las personas del censo. En cambio realizaremos una encuesta, escogiendo al azar una muestra de unas 3000 personas entre el censo y pregunt´andoles si tienen intenci´on de ir a votar. El ´ındice de audiencias manda en la programaci´on de televisi´on. Pero ¿c´omo saben cu´antos espectadores vieron un partido dado o un programa determinado? A m´ı nunca me han preguntado... En realidad, una encuesta se realiza de manera autom´atica y continua: una empresa especializada llamada SOFRES (http://www.sofresam.com) ha escogido al azar unos 3300 hogares que representan unas 10000 personas de entre un total de aprox. 39 500 000 espectadores potenciales. En cada uno de estos hogares, instala un aparato llamado “aud´ımetro” que graba cu´al es el programa que se est´a viendo en cada momento.

74

Mathieu Kessler: M´ etodos Estad´ısticos Quiero conocer la concentraci´on de un determinado producto en una soluci´on. Pienso que es razonable que la distribuci´on de los valores proporcionados por mi aparato de medici´on sea una normal con media µ y desviaci´on t´ıpica σ desconocidas. El centro de esta distribuci´on, es decir µ, ser´a por lo tanto lo m´as representativo de la concentraci´on que intento determinar. Para estimar µ, repetir´e la medici´on varias veces. Pero surge una pregunta evidente: Pregunta: ¿C´omo sabemos que nuestra estimaci´on es fiable? ¿Por qu´e limit´andose a unas 3000 personas, se puede extropolar el resultado con confianza a una poblaci´on de 30 millones? Adem´as est´a claro que el resultado que obtengo depende de la muestra particular que haya escogido, si escojo otra muestra me sale otro resultado. Este hecho se llama la variabilidad muestral. Intento de respuesta: Consideremos el caso del sondeo en ´el que se busca estimar la tasa de participaci´on antes de unas elecciones. Para intentar convencer al lector de que el riesgo que corro al extrapolar el resultado de una muestra de 3000 personas a la poblaci´on de 32 millones no es excesivo, llevo a cabo un estudio de simulaci´on: Construyo en mi ordenador un fichero con 32 millones de ceros y unos, que representar´a el censo electoral. Los unos representar´an a las personas que s´ı tienen la intenci´on de ir a votar, mientras que los ceros a los que no piensan ir a votar. En el fichero que construyo, el 70 % de los 32 millones de datos son unos, mientras que el 30 % son ceros. (70 % es una tasa razonable de participaci´on en unas elecciones) Extraigo al azar una muestra de 3000 datos del fichero completo, hago el recuento de los unos, y encuentro que la proporci´on de unos en esta muestra es de 0.71. Por lo tanto, en este caso, mi estimaci´on es muy buena: estimo la tasa de participaci´on en 71 % mientras que la aut´entica, es decir, la de la poblaci´on (el fichero) es de 70 %. ¿Os he convencido? Seguro que alg´ un lector desconfiado dir´a: “ no demuestra nada, ha tenido suerte de que en la muestra que ha escogido, la proporci´ on de unos sea pr´ oxima a la proporci´ on poblacional, pero con otra muestra podr´ıa salir otro resultado peor.” De acuerdo, el argumento es v´alido... Pero para convencerle, voy a coger otra muestra al azar de 3000 datos, y encuentro que la proporci´on muestral de unos es 0.72. Sigue estando muy bien, ¿no? ¿Sigue sin convencerle? Bueno, puedo repetir la extracci´on de muestras hasta 10 000 veces por ejemplo, y guardo los valores que encuentro para la proporci´on de 1 en cada una de estas 10000 muestras en una variable llamada pˆ. Realizo un histograma de los 10000 valores de pˆ, el resultado aparece en la figura V.1. Una primera conclusi´on se impone: la gran mayor´ıa de las muestras han proporcionado un valor de pˆ entre 0.68 y 0.72, lo que corresponde a una muy buena estimaci´on del valor de la proporci´on poblacional. Por lo tanto este estudio simulado demuestra que al escoger una muestra de 3000 personas, es muy probable que el valor de la proporci´on de 1 en la muestra est´e bastante pr´oxima (menos de dos puntos) de la proporci´on de 1 en la poblaci´on, aunque ´esta sea much´ısimo m´as grande que la muestra. Podemos dar un paso m´as en la utilizaci´on de este estudio simulado: si considero ahora el experimento “extraer una muestra de tama˜ no 3000 en la poblaci´on”, pˆ es la

75

1000 0

500

Frecuencias

1500

2000

V.1 Introducci´ on

0.67

0.68

0.69

0.70

0.71

0.72

0.73

^ p

Figura V.1: Histograma de los valores de pˆ para 10000 muestras extraidas

variable “proporci´on de 1 en la muestra extraida”. Quiero formular un modelo para su distribuci´on. El histograma en la figura V.1 me sugiere que puedo escoger una distribuci´on normal para pˆ. De hecho en la figura V.2, se aprecia que el ajuste por una normal con media µ = 0,70 y desviaci´on t´ıpica σ = 0,008 es muy bueno. Utilizando entonces la regla de 68 % - 95 % - 99.7 %, deduzco en particular que al escoger al azar en la poblaci´on una muestra de tama˜ no 3000, la probabilidad de que la proporci´ on muestral pˆ se encuentre entre 0,7 − 2 × 0,008 = 0,694 y 0,07 + 2 × 0,008 = 0,716 es del 95 %. Nota. Puesto que escoger una muestra de 3000 personas da tan buen resultado, podr´ıamos preguntarnos si podr´ıamos ahorrarnos algo y extraer una muestra m´ as peque˜ na. Repitamos por ejemplo el estudio simulado con muestras de s´olo 100 personas. El histograma que obtenemos aparece en la figura V.3. Observamos que en este caso el histograma es much´ısimo m´as chato, y que la dispersi´on de los valores de pˆ es mucho mayor: es m´as probable, al escoger una muestra de 100, que la proporci´ on muestral est´e bastante alejado del objetivo 0.7. Toda la teor´ıa desarrollada acerca de los sondeos utiliza de manera crucial el hecho de que antes de extraer la muestra, se dispone de un modelo para la distribuci´ on de pˆ por ejemplo, tal como lo hemos ilustrado con nuestro ejemplo simulado. Este

Mathieu Kessler: M´ etodos Estad´ısticos

Densidad

0

10

20

30

40

76

0.67

0.68

0.69

0.70

0.71

0.72

0.73

phat

1000 0

500

Frecuencias

1500

Figura V.2: Ajuste de una normal al histograma de los valores de pˆ

0.6

0.7

0.8

0.9

^ p

Figura V.3: Histograma de los valores de pˆ para 10000 muestras de tama˜ no 100 extraidas

modelo permite en particular decidir si, fijado el error m´aximo que se est´a dispuesto a cometer respecto a la proporci´on poblacional, el tama˜ no de la muestra es suficiente como para que el riesgo de cometer un error mayor es lo suficientemente peque˜ no. Introducimos dos t´erminos fundamentales en estad´ıstica:

V.2 Muestra

77

Definici´ on. Cualquier cantidad calculada a partir de las observaciones de una muestra se llama estad´ıstico. La distribuci´on de los valores que puede tomar un estad´ıstico respecto a todas las muestras de tama˜ no n que se podr´ıa extraer se llama distribuci´ on muestral de este estad´ıstico.

V.2.

Muestra

Formalizamos el contexto y introducimos el concepto de muestra: Consideramos un experimento aleatorio y una v.a X.1 . Al querer obtener informaci´on sobre alg´ un par´ametro del modelo que hemos escogido para la distribuci´ on de los valores de X, vamos a repetir el experimento n veces de manera independiente y consideramos las variables X1 “valor de X obtenido en la primera realizaci´on del experimento”, . . ., Xn “valor de X obtenido en la n-´esima realizaci´on del experimento”. Las variables X1 , X2 , . . . , Xn son independientes y claramente la distribuci´ on de cada variable Xi coincide con la distribuci´on de X. En este caso decimos que (X1 , X2 , . . . , Xn ) constituye una muestra aleatoria simple de la distribuci´on de X.

V.3.

La media muestral

Supongamos que nos interesamos a µ, la media de la v.a X. Escogeremos una muestra, y calcularemos la media de esta muestra, llamada media muestral. Para controlar lo pr´oximo que estar´a su valor de µ, consideramos el experimento que consiste en extraer una muestra aleatoria simple de la distribuci´on de X, la media muestral es la variable aleatoria (su valor depende de la muestra escogida) ¯ = X1 + . . . + Xn . X n ¯ Empece¿Qu´e podemos decir de la distribuci´on de los valores que puede tomar X? ramos por estudiar cu´al ser´a el centro y la dispersi´on de esta distribuci´on.

V.3.1. V.3.1.1.

¯ Esperanza y varianza de X Esperanza

Tenemos que ¯ = E[ E[X]

X1 + . . . + Xn 1 1 ] = E[X1 + . . . + Xn ] = (E[X1 ] + . . . + E[Xn ]). n n n

Puesto que la distribuci´on de cada Xi es la misma que la distribuci´on de X, deducimos que E[X1 ] = . . . = E[Xn ] = µ, y ¯ = E[X]

1 (n · µ) = µ, n

es decir que el centro de la distribuci´on de la media muestral coincide con el centro de la distribuci´on de X. 1

En algunos casos, este experimento aleatorio consistir´ a en escoger al azar un individuo de una poblaci´ on muy grande, y X ser´ a el valor de la variable de inter´es para este individuo concreto. Llamaremos entonces media de X la media poblacional y su varianza, la varianza poblacional

78

Mathieu Kessler: M´ etodos Estad´ısticos V.3.1.2.

Varianza

Utilizando la f´ormula de propagaci´on de los errores, ver Tema 3, obtenemos que ¯ = var[ var[X]

X1 + . . . + Xn 1 1 ] = 2 var[X1 +. . .+Xn ] = 2 (var[X1 ]+. . .+var[Xn ]), n n n

lo que implica que ¯ = var(X) o de forma equivalente

nσ 2 σ2 = , n2 n

σ σX¯ = √ . n

¯ es √n m´as peque˜ ¡La dispersi´on que presentan los valores de X na que la dispersi´on de X! V.3.1.3.

Consecuencia pr´ actica

Quiero realizar una medici´on con un aparato. El experimento aleatorio es “llevar a cabo una medici´on”, mientras que la variable X es “valor proporcionado por el aparato”. Los valores de X variar´an pero lo deseable es que su centro µ coincida con el valor exacto de la cantidad que busco determinar: si E[X] = valor exacto, decimos que el aparato es exacto. Por otra parte, queremos que los valores proporcionen presenten la menor dispersi´on posible: si σ = σX es peque˜ na, decimos que el aparato es preciso. Tenemos entonces varios casos posibles, tal como est´a ilustrado en la Figura V.4, con la analog´ıa de la medici´on con un disparo en una diana: el centro de la diana representa el valor exacto de lo que buscamos determinar...

Figura V.4: Analog´ıa de la medici´on con un disparo en una diana

Si nuestro aparato de medici´on no es exacto, podemos intentar calibrarlo para corregir la desviaci´on sistem´atica que presenta. En cambio, si no es preciso, tiene dificil arreglo. Sin embargo exista una manera de mejorar la precisi´on de un aparato de medici´on: basta con repetir un n´ umero suficiente de veces la medici´on y proporcionar la media de los valores obtenidos: la desviaci´on t´ıpica de los valores √ que proporcionar´ıa con este m´etodo es n veces m´as peque˜ na que la de los valores proporcionados si me limito a una medici´on.

V.3 La media muestral

V.3.2.

79

Distribuci´ on de la media muestral

En la subsecci´on anterior, hemos caracterizado la media y la desviaci´on t´ıpica ¯ Hay que enfatizar el hecho de la distribuci´on de los valores de la media muestral X. de que estos resultados se obtienen sin hip´otesis sobre la forma de la distribuci´ on ¯ de X. ¿Podemos decir algo m´as sobre la distribuci´on de los valores de X, ahora que sabemos cu´ales son su centro y su dispersi´on? V.3.2.1.

Si la distribuci´ on de X es Normal

Si hemos modelizado la v.a X por una distribuci´on Normal N (µ, σ 2 y consideramos una muestra aleatoria simple de X, sabemos por la reproductibilidad de la distribuci´on Normal que X1 + X2 + . . . + Xn sigue tambi´en una distribuci´on normal. Se cumple por lo tanto ¯ es la media muestral basada en una Proposici´ on V.3.1 Si X ∼ N (µ, σ 2 ), y si X muestra aleatoria simple de la distribuci´ on de X, 2

¯ ∼ N (µ, σ ), X n o, de manera equivalente,

¯ −µ X √ ∼ N (0, 1). σ/ n

Como ejemplo, consideremos un aparato de medici´on que proporciona valores que se distribuyen seg´ un una Normal, con una media de 120 y una desviaci´on t´ıpica de 12. Por la propiedad de la distribuci´on Normal, el 95 % de los valores est´an entre µ − 2σ y µ − 2σ, es decir entre 96 y 144. En cambio, si repito 9 veces la medici´on y proporciono la media de estas nueve mediciones, el 95 % de los valores que obtendr´ıa √ √ con este procedimiento se encontrar´ıan entre µ − 2σ/ n y µ − 2σ/ n, es decir entre 112 y 128, lo que implica una precisi´on mucho mayor. V.3.2.2.

Si la distribuci´ on de X es desconocida o no es normal

Si la distribuci´on de X es desconocida, no podemos hacer milagros: no podemos ¯ exepto sobre su media y su desviaci´ decir nada exacto sobre la distribuci´on de X, on t´ıpica, ver secci´on V.3.1. Sin embargo, si el tama˜ no muestral n es grande, se sabe que esta distribuci´on se puede aproximar por una distribuci´on Normal. Teorema V.3.1 Teorema Central del L´ımite Consideremos (X1 , . . . , Xn ) una muestra aleatoria simple de la distribuci´ on de X con media µ y varianza σ 2 . Si n es ¯ por una Normal “suficientemente” grande, se puede aproximar la distribuci´ on de X 2 con media µ y varianza σ /n: 2

¯ ∼ N (µ, σ ) aproximadamente. X n ¿Cuando se considera que n es “suficientemente” grande? No hay por desgracia ninguna respuesta universal, depende de la forma de la distribuci´on de X: si ´esta no es muy diferente de una distribuci´on Normal, no hace falta un n muy grande para que la aproximaci´on de la distribuci´on de la media muestral por una Normal sea

80

Mathieu Kessler: M´ etodos Estad´ısticos satisfactoria. En cambio, si es muy distinta de una distribuci´on Normal, ser´a necesario una muestra grande. Se suele considerar como indicaci´on que n mayor de 30 es suficiente en la mayor´ıa de los casos (pero no es m´as que una indicaci´on...) Por otra parte, este teorema, fundamental en estad´ıstica, explica la importancia de la distribuci´on Normal: aparece de manera natural, asociada a cualquier distribuci´on, si consideramos la distribuci´on de la media muestral, o de la suma de realizaciones independientes. En particular, si un error de medici´on se puede considerar como la suma de muchas peque˜ nas perturbaciones independientes, el Teorema Central del L´ımite implica que la distribuci´on de sus valores es aproximadamente Normal.

V.4.

La varianza muestral

Consideremos ahora un experimento al que asociamos una v.a X cuya distribu2 . Repetimos ci´on de valores modelizamos por una Normal con media µX y varianza σX n veces el experimento y obtenemos una m.a.s (X1 , X2 , . . . , Xn ) de la distribuci´on de X. ¿Qu´e podemos decir de la distribuci´on de la varianza muestral s2 =

n ¯ 2 )? (X 2 − (X) n−1

Es posible demostrar la proposici´on siguiente Proposici´ on V.4.1 2.

1.

¯ y s2 son independientes. Las v.a X

La densidad de (n − 1)s2 /σ 2 es proporcional a x(n−1)/2 e−x/2 ,

si x > 0.

La distribuci´ on correspondiente se llama χ2 (ji-cuadrado) con (n − 1) grados de libertad. Escribimos (n − 1)s2 ∼ χ2n−1 . σ2 En general, una v.a. X sigue una distribuci´ on χ2 con k ∈ N grados de libertad si su densidad es proporcional a x 7→ xk/2 e−x/2 ,

si x > 0.

En la figura V.5, se representa la densidad de una distribuci´on χ2 con distintos grados de libertad.

V.5.

Distribuci´ on t de Student

En la secci´on 3, hemos utilizado el estad´ıstico Z=

¯ −µ X √ , σ/ n

(V.1)

¯ es la media de una muestra aleatoria que sigue una distribuci´on Normal est´andar si X 2 simple de una distribuci´on Normal N (µ, σ ).

V.5 Distribuci´ on t de Student

81

0.00

0.05

0.10

f_X(x)

0.15

0.20

0.25

Densidad de la Ji cuadrado con k grados de libertad

0

10

20

30

40

50

x

Figura V.5: Densidad de la distribuci´on χ2 con k = 3, 10 y 30 grados de libertad (respectivamente de izquierda a derecha)

Si desconocemos el valor de σ, lo estimaremos por § la desviaci´on t´ıpica muestral r n ¯ 2 ). (X 2 − (X) S= n−1 El estad´ıstico que resulta de sustituir en (VIII.1) σ por S es T =

¯ −µ X √ . S/ n

Definici´ on V.5.1 Consideramos (X1 , . . . , Xn ) una muestra aleatoria simple de una ¯ la media muestral, la distribuci´ distribuci´ on N (µ, σ 2 ), sea X on de los valores de T =

¯ −µ X √ S/ n

se llama distribuci´ on t de Student con n−1 grados de libertad. Escribimos T ∼ tn−1 . La distribuci´on de T depende por lo tanto del tama˜ no n de la muestra, a trav´es de los llamados “grados de libertad”. Se puede demostrar que la densidad Ftk de la distribuci´on t de Student con k grados de libertad admite la siguiente expresi´on: ftk (t) ∝

1 (1 +

t2 /p)(p+1)/2

,

−∞ < t < ∞,

donde el s´ımbolo ∝ significa “es proporcional a”, es decir que existe una constante K tal que ftk (t) = K (1+t2 /p)1 (p+1)/2 . Por las propiedades de una funci´on de densidad se puede deducir que la constante es K=

Γ( p+1 2 ) 1 √ , p Γ( 2 ) pπ

82

Mathieu Kessler: M´ etodos Estad´ısticos

f_X(x)

Densidad de la t de Student con k grados de libertad

x

Figura V.6: Densidad de la distribuci´on t de Student con 1, 3, 10 y 150 grados de libertad respectivamente (de la densidad m´as chata a la m´as puntiaguda)

donde Γ denota la funci´on Gamma2 . La distribuci´on t tiene colas m´as pesadas que la distribuci´on Normal, lo que es intuitivamente natural puesto que, al obtenerse T sustituyendo σ por S, el denominador de T presenta ahora tambi´en variabilidad. Esta variabilidad en el denominador resulta en que T puede tomar con m´as probabilidad valores m´as extremos. Sin embargo, si los grados de libertad aumentan, la variabilidad de S disminuye, y la distribuci´on t de Student asociada se parece m´as a una Normal. En la figura V.6

V.6.

La proporci´ on muestral

Hay situaciones en las que la v.a X de inter´es tan s´olo puede tomar el valor 0 ´o 1, ´este u ´ltimo con la probabilidad p, pensamos por ejemplo, en el experimento que consiste en producir una pieza con una m´aquina que produce una proporci´on p de defectuosos, X toma el valor 1 si la pieza es defectuosa, y 0 si la pieza es correcta, o en el ejemplo del sondeo para estimar la tasa de participaci´on antes de unas elecciones. Para sacar informaci´on sobre p, repetiremos el experimento n veces de manera independiente, contaremos el n´ umero N de veces que la v.a X ha tomado el valor 1, es decir que fabricamos n piezas con la m´aquina y contamos el n´ umero N de defectuosas, o preguntaremos a n personas si tienen intenci´on de ir a votar, para los dos ejemplos concretos que hemos mencionado. La proporci´on de “Unos” en la muestra se llama la proporci´on muestral y la denotamos por pˆ. Est´a claro que tenemos N pˆ = . n 2

La funci´ on Gamma tiene la expresi´ on siguiente: para cualquier real α > 0, Γ(α) =

R∞ 0

tα−1 e−t dt.

V.6 La proporci´ on muestral

V.6.1.

83

C´ alculos exactos para la distribuci´ on de pˆ

El n´ umero de “Unos” en la muestra es el n´ umero de veces que ha salido “1” en n realizaciones independientes del experimento, su distribuci´on es por lo tanto Binomial de par´ametros n y p, la probabilidad de que salga “1” en una realizaci´ on del experiemento: N ∼ B(n, p). C´alculos exactos para la distribuci´on de pˆ se podr´an realizar utilizando que pˆ = N/n y el hecho que N ∼ B(n, p), tal como viene ilustrado en el ejemplo siguiente: Ejemplo V.6.1 Cuando est´ a bien ajustada, una m´ aquina produce piezas con s´ olo 1 % de defectuosos. Para realizar un control de la calidad de la producci´ on, se extrae diariamente una muestra de 100 piezas, y se calcula la proporci´ on muestral de defectuosos. Si la m´ aquina est´ a bien ajustada, ¿cu´ al es la probabilidad de que, en una de estas muestras, haya m´ as de 2 % de defectuosos? Queremos calcular P(ˆ p > 0,02) = P(

N > 0,02) = P(N > 2), 100

siendo N ∼ B(100, 0,01) si la m´ aquina est´ a bien ajustada. Tenemos P(N > 2) = 1 − P(N ≤ 2) = 1 − [P(N = 0) + P(N = 2) + P(N = 3)]       100 100 100 1 99 0 100 0,012 0,9998 ] ' 0,08 0,01 0,99 + 0,01 0,99 + 1−[ 0

2

1

Por lo tanto, si la m´ aquina est´ a bien ajustada, s´ olo hay una probabilidad de 0.08 de observar 3 o m´ as piezas defectuosas en una muestra de 100. En particular, si un d´ıa observo 3 piezas defectuosas en la muestra que he extraido, hay dos posibilidades: a) la m´ aquina est´ a bien ajustada pero he tenido mala suerte (s´ olo hab´ıa 8 posibilidades entre 100 de que esto ocurriera), b) en realidad es un s´ıntoma de que la m´ aquina est´ a mal ajustada... Este simple ejemplo ilustra la idea b´ asica del control estad´ıstico de calidad.

V.6.2.

Distribuci´ on aproximada de pˆ

Los c´alculos exactos que hemos descrito en el apartado anterior se pueden volver muy laboriosos si se necesita evaluar un gran n´ umero de probabilidades individuales. En el caso en que se cumplen las condiciones de aproximaci´on de la distribuci´ on Binomial, la distribuci´on de N se puede aproximar por una Normal N (np, np(1−p)), y por lo tanto pˆ sigue aproximadamente una distribuci´on Normal con media np/n = p y varianza np(1 − p)/n2 = p(1 − p)/n: Si np > 5, n(1 − p) > 5 pˆ ∼ N (p,

p(1 − p) ), n

aprox.

Esta propiedad de aproximaci´on justifica en particular las formas de campanas de Gauss que aparecen para los histogramas de pˆ en la introducci´on, ver Figuras V.2 y V.3. Notar por otra parte que para el ejemplo del apartado anterior no se cumplen las condiciones de aproximaci´on...

84

Mathieu Kessler: M´ etodos Estad´ısticos

V.7.

Introducci´ on a las gr´ aficas de control

Conocer las distribuciones muestrales de algunos estad´ısticos destacados como la media muestral, la varianza muestral o la proporci´on muestral ha propiciado que se propongan procedimentos de control estad´ıstico de calidad en contextos industriales. Veremos en esta secci´on una introducci´on a las gr´aficas de control, en una versi´on algo simplificada, pero que permite ilustrar sus fundamentos. Las gr´aficas de control permiten comprobar de manera continua que se mantiene constante la calidad de una producci´on, favoreciendo la intervenci´on r´apida en el caso en que se detecta que ´esta se deteriora.

V.7.1.

¯ Gr´ afica de control X.

Consideremos el contexto siguiente: una empresa produce monitores de ordenador. Una caracter´ıstica importante de la calidad corresponde a la tensi´on presente en la rejilla de hilos de cobre detr´as de la pantalla. La tensi´on ideal corresponde a 275mv, y se sabe que en condiciones normales de producci´on, los valores de la tensi´on en los monitores producidos se distribuyen seg´ un una distribuci´on aproximadamente Normal con desviaci´on t´ıpica σ = 43mV . Para controlar la producci´on se escogen cada hora obtenidos pantallas y se mide la tensi´on en sus rejillas, calculando a continuaci´on la media de los cuatro valores obtenidos. En la tabla siguiente, se recogen los datos correspondientes a veinte controles. Muestra no 1 2 3 4 5 6 7 8 9 10

x ¯ 269.5 297.0 269.6 283.3 304.8 280.4 233.5 257.4 317.5 327.4

Muestra no 11 12 13 14 15 16 17 18 19 20

x ¯ 264.7 307.7 310.0 343.3 328.1 342.6 338.8 340.1 374.6 336.1

¿C´omo comprobar quex la calidad de la producci´on sigue conforme con los criterios fijados? es decir, ¿c´omo detectar que el instrumento de producci´on se ha desajustado por ejemplo? Si representamos la secuencia de los valores calculados para x ¯ en los controles consecutivos, obtenemos la gr´afica de la Figura V.7, donde tambi´en se ha dibujado una l´ınea horizontal para indicar la tensi´on ideal 275mV. Parece sin duda que la tensi´on de los monitores va aumentando y alej´endose del objetivo 275mV, pero ¿c´omo definir una regla que nos sirva de se˜ nal de alarma? Formalicemos el contexto: consideramos la v.a X= “tensi´on en la rejilla para un monitor producido”. Sabemos que X ∼ N (µ, σ 2 con σ = 43. Tambi´en sabemos que en condiciones normales de producci´on, se debe cumplir que µ = 275. Si escojemos ¯ la media de al azar cuatro monitores en la producci´on de una hora, y llamamos X ¯ se distribuyen seg´ las tensiones correspondientes, sabemos que los valores de X un √ una Normal de media µ y de desviaci´on t´ıpica σX¯ = σ/ n, es decir 43/2 = 21,5. En

85

400

V.7 Introducci´ on a las gr´ aficas de control

350



















300

● ●





● ● ●

250

media de la muestra

● ● ●

150

200



5

10

15

20

muestra n”

Figura V.7: Valores consecutivos de x ¯, ejemplo de los monitores.

particular si µ es efectivamente igual a 275, se espera que el 99,7 % de los valores de ¯ se encontrar´an entre µ − 3σ ¯ y µ + 3σ ¯ , es decir entre 210.5 y 339.5. X X X ¯ fuera de este Por consiguiente, si para una muestra, observamos un valor de X rango de valores, es razonable pensar que la m´aquina se ha desajustado, puesto que s´olo hab´ıa una probabilidad de 3 entre 1000 que esto ocurriera, siendo la m´aquina bien ajustada (es decir siendo µ igual a 275mV). ¯ consiste por lo tanto, suponiendo que los valores Realizar una gr´afica de control X de la variable que queremos controlar siguen aproximadamente una Normal y que ¯ que conocemos su desviaci´on t´ıpica, en representar en una gr´afica los valores de X vamos obteniendo, junto con tres l´ıneas horizontales: la l´ınea objetivo, en nuestro caso µ = 275, √ el l´ımite de control superior en µ + 3σ/ n, en nuestro caso, 339.5. √ el l´ımite de control superior en µ − 3σ/ n, en nuestro caso, 210.5. En la Figura V.8, se representa la gr´afica de control para el ejemplo de los monitores. A partir de la muestra n´ umero 14 se detecta que el proceso est´a fuero de control, y que la calidad se ha deteriorado.

V.7.2.

Gr´ afica de control pˆ

En algunas situaciones, la calidad de la producci´on no se mide a tr´aves de una variable X sino a trav´es de la proporci´on de defectuosos producidos. En estos casos se monitora la calidad utilizando una gr´afica de control pˆ. Ilustramos el procedimiento con el ejemplo siguiente: una empresa fabrica placas base para ordenadores y se ha fijado como objetivo un 10 % de defectuosos. Diariamente controla 400 placas. En la tabla siguiente se presentan los datos correspondientes a los controles de 16 d´ıas. D´ıa no pˆ D´ıa no pˆ

1 0.1150 9 0.1000

2 0.1600 10 0.1600

3 0.1300 11 0.1675

4 0.1225 12 0.1225

5 0.1000 13 0.1375

6 0.1225 14 0.1975

7 0.1900 15 0.1525

8 0.1150 16 0.1675

Mathieu Kessler: M´ etodos Estad´ısticos

400

86

350



















300





● ● ●



● ● ●

250

media de la muestra



150

200



5

10

15

20

muestra n”

Figura V.8: Gr´afica de control x ¯, ejemplo de los monitores.

Para llevar a cabo el control utilizando las mismas ideas que para la gr´afica de ¯ recurrimos a la distribuci´on muestral de pˆ. Sabemos que si np > 5 y control X, n(1 − p) > 5, ´esta se puede aproximar por una Normal: pˆ ∼ N (p,

p(1 − p) , aproximadamente. n

La gr´afica de control pˆ se realizar´a por lo tanto dibujando en la gr´afica tres l´ıneas horizontales: la l´ınea objetivo, en nuestro caso p = 0,1, √ p(1−p) el l´ımite de control superior en p + 3 √n , en nuestro caso, 0.145 √ el l´ımite de control superior en p − 3

p(1−p) √ , n

en nuestro caso, 0.055.

La gr´afica correspondiente al ejemplo se representa en la Figura V.9.

V.7.3.

Otra se˜ nal de alarma

Existen otras posibles se˜ nales de alarma para decidir si un proceso est´a fuera de control. Una de ellas corresponde a dibujar la l´ınea objetivo y concluir que la m´aquina est´a mal ajustada si se observan nueve puntos consecutivos por debajo(o por encima) de la l´ınea objetivo. La probabilidad de falsa alarma, es decir concluir err´oneamente que el proceso est´a fuera de control es del orden de 2 entre 1000.