´ ˜ INDUSTRIAL. ESTAD´ISTICA APLICADA Y MODELIZACION. I.T. DISENO

Variables aleatorias ´ DEFINICION En temas anteriores, se han estudiado las variables estad´ısticas, que representaban el conjunto de resultados observados al realizar un experimento aleatorio, presentando para cada valor su frecuencia, esto es, el n´ umero de veces que sucede cada resultado. Sin embargo, antes de realizar un experimento aleatorio no se puede predecir con exactitud qu´e resultados se van a observar, sino que, como mucho, se puede describir cu´ales van a ser los resultados posibles y con qu´e probabilidad puede ocurrir cada uno de ellos. En muchas ocasiones, nos interesa m´as que el resultado completo del experimento, una funci´on real de los resultados. Tales funciones cuyos valores dependen de los posibles resultados de un experimento aleatorio, se llaman variables aleatorias. En todo proceso de observaci´on o experimento aleatorio podemos definir una variable aleatoria asignando a cada resultado del experimento un n´ umero: • si el resultado del experimento es num´erico porque contamos o medimos, los posibles valores de la variable coinciden con los resultados del experimento. • si el resultado del experimento es cualitativo, hacemos corresponder a cada resultado un n´ umero siguiendo alg´ un criterio. Una variable aleatoria X es una funci´on definida sobre el espacio muestral Ω (conjunto de los resultados de un experimento aleatorio) que toma valores en el cuerpo de los n´ umeros reales IR, es decir X : Ω → IR Una variable aleatoria puede ser discreta o continua seg´ un sea el rango de esta aplicaci´on. • Una variable aleatoria es discreta si toma un n´ umero de valores finito o infinito numerable. Estas variables corresponden a experimentos en los que se cuenta el n´ umero de veces que ha ocurrido un suceso. • Una variable aleatoria es continua cuando puede tomar cualquier valor de un intervalo real de la forma (a, b), (a, ∞), (−∞, b), (−∞, +∞) o uniones de ellos. Por ejemplo, el peso de una persona, el tiempo de duraci´on de un suceso, etc.

VARIABLES ALEATORIAS DISCRETAS Para la descripci´on de una variable aleatoria discreta, se especifican los posibles valores de la variable con sus respectivas probabilidades. Sea X una variable aleatoria que toma valores x1 , x2 , . . . , xn , . . .. Entenderemos por P (X = xi ) como la probabilidad del suceso X −1 (xi ) = {w ∈ Ω : X(w) = xi } = A ∈ Q. Por ejemplo, en el experimento consistente en lanzar dos monedas, el espacio muestral es Ω = {(c, c), (c, f ), (f, c), (f, f )}, donde c representa cara y f representa cruz. Sobre este espacio ´ se puede definir la funci´on X : Ω → IR dada por X(w) = ”n´ umero de caras que aparecen”. Esta es una variable aleatoria discreta, ya que toma los valores X(f, f ) = 0;

X(c, f ) = X(f, c) = 1;

Inmaculada de las Pe˜ nas Cabrera. Dpto de Matem´atica Aplicada

X(c, c) = 2 1

´ ˜ INDUSTRIAL. ESTAD´ISTICA APLICADA Y MODELIZACION. I.T. DISENO

y las probabilidades con que toma estos valores ser´an 1 P (X = 0) = ; 4

2 P (X = 1) = ; 4

1 P (X = 2) = . 4

La tabla formada por los valores que toma la variable junto con sus probabilidades, recibe el nombre de distribuci´on o funci´on de probabilidad de la variable. Muchas veces interesa conocer con qu´e probabilidad una variable aleatoria toma valores que no sobrepasan un determinado n´ umero real x, es decir, la probabilidad acumulada de que la variable tome valores inferiores a ese x. La funci´ on de distribuci´on de una variable aleatoria discreta X se define por F (x) = P (X ≤ x) =

X

P (X = xi )

xi ≤x

Caracter´ısticas de la funci´on de distribuci´on: • F (x) est´a definida para todos los n´ umeros reales. • 0 ≤ F (x) ≤ 1, puesto que est´a definida a trav´es de una probabilidad. • lim F (x) = 0 x→−∞

• lim F (x) = 1 x→∞

• Gr´aficamente, F (x) es una funci´on escalonada(constante a trozos), cuyos saltos se producen en los valores que toma la variable. La funci´on de distribuci´on para la variable X=”n´ umero de caras que aparecen al lanzar dos veces una moneda” es:  0 si x < 0     1/4 si 0 ≤ x < 1 F (x) =  3/4 si 1 ≤ x < 2    1 si x ≥ 2 En ocasiones, resulta c´omodo utilizar la funci´on de distribuci´on para el c´alculo de probabilidades. Analizemos distintos casos: • P (X ≤ x) = F (x), por definici´on. • P (X > x) = 1 − P (X ≤ x) = 1 − F (x) • Si consideramos n, m ∈ IN, valores que toma la variable X, se verifica P (n < X ≤ m) = P (X ≤ m) − P (X ≤ n) = F (m) − F (n) • Como P (n ≤ X ≤ m) = P (n − 1 < X ≤ m) = F (m) − F (n − 1). • Para k ∈ IN cualquiera de los valores de la variable, se tiene P (X = k) = P (k ≤ X ≤ k) = P (k − 1 < X ≤ k) = F (k) − F (k − 1)

La funci´on de probabilidad de una variable aleatoria discreta es un modelo te´orico de la distribuci´on de frecuencia relativa de los resultados de un experimento aleatorio. Por tanto, se pueden describir los datos del experimento con medidas descriptivas num´ericas similares a las que se trataron en Estad´ıstica Descriptiva. Inmaculada de las Pe˜ nas Cabrera. Dpto de Matem´atica Aplicada

2

´ ˜ INDUSTRIAL. ESTAD´ISTICA APLICADA Y MODELIZACION. I.T. DISENO

Sea X una variable aleatoria discreta que toma valores x1 , x2 , . . . , xn , . . .. El valor esperado o esperanza matem´atica es la medida de centralizaci´on m´as utilizada y se obtiene promediando cada posible valor por su probabilidad. µ = E(X) =

X

xi P (X = xi )

i

donde el sumatorio va extendido a todos los posibles valores que tome la variable. Asimismo, se define la varianza como 2 = σX

X

(xi − µ)2 P (X = xi ) =

X

i

x2i P (X = xi ) − µ2

i

Igual que en el caso de Estad´ıstica Descriptiva, se define la desviaci´ on t´ıpica como la ra´ız cuadrada positiva de la varianza. VARIABLES ALEATORIAS CONTINUAS En las variable continuas, hay que observar que la probabilidad de que la variable tome un valor particular se considera igual a cero. Se supone que no es posible conocer el valor exacto de una variable continua, ya que medir su valor consiste en clasificarlo dentro de un intervalo. Las variables aleatorias continuas se describen por medio de una funci´on real de variable real, a la que se denomina funci´on de densidad, que surge como la generalizaci´on de las curvas de frecuencias asociadas a los histogramas, cuando la amplitud de los intervalos se considera infinitamente peque˜ na. Llamaremos funci´on de densidad de una variable aleatoria X a una funci´on real f (x) no negativa (f (x) ≥ 0) tal que Z +∞

f (x) dx = 1

−∞

y de forma que es posible calcular la probabilidad de que X tome valores en un cierto intervalo [a, b], por integraci´on P (a < X < b) =

Z

b

f (x) dx.

a

Conviene resaltar de nuevo que en variables aleatorias continuas se mide la probabilidad de intervalos y que la probabilidad de que la variable tome un valor concreto se considera cero. Por lo tanto, Z

b

f (x) dx = P (a < X < b) = P (a ≤ X < b) = P (a < X ≤ b) = P (a ≤ X ≤ b)

a

La funci´on de distribuci´on de X se define igual que para variables discretas. Viene dada por F (x) = P (X ≤ x), ahora bien, la forma de acumular probabilidades est´a ahora asociada a acumular ´areas de la funci´on de densidad F (x) =

Z

x

f (t) dt.

−∞

Las caracter´ısticas de la funci´on de distribuci´on para variables continuas son similares a las del caso discreto, con la diferencia fundamental de que en el caso continuo, la funci´on de distribuci´on es una funci´on continua en todo IR. Si pensamos en el teorema Fundamental del C´alculo, obtenemos c´omo ”recuperar” la funci´on de densidad, conociendo la de distribuci´on f (x) = F 0 (x). Inmaculada de las Pe˜ nas Cabrera. Dpto de Matem´atica Aplicada

3

´ ˜ INDUSTRIAL. ESTAD´ISTICA APLICADA Y MODELIZACION. I.T. DISENO

Lo que implica, si aplicamos la regla de Barrow, P (a < X < b) =

Z

b

f (x) dx = F (b) − F (a).

a

En el caso continuo, la f´ormula del valor esperado o esperanza matem´atica queda µ = E(X) =

Z

+∞

xf (x) dx

−∞

donde f (x) es la funci´on de densidad de la variable aleatoria X. An´alogamente, para la varianza 2 σX =

Z

+∞

(x − µ)2 f (x) dx =

−∞

Z

+∞

x2 f (x) dx − µ2

−∞

MODELOS PROBABIL´ISTICOS Con frecuencia, al considerar variables aleatorias distintas, asociadas incluso a experimentos aleatorios diferentes, se observa que las distribuciones de probabilidad son, en esencia, similares. Se pueden, por tanto, considerar modelos de distribuciones de probabilidad, aplicables a numerosas situaciones reales. Nuestra intenci´on ahora es exponer las condiciones te´oricas que caracterizan a la situaci´on que se desea modelar, para, a partir de ellas, razonar la forma de la correspondiente funci´on de probabilidad o de la funci´on de densidad, seg´ un se est´en considerando variables que, por sus caracter´ısticas, se pueden clasificar como discretas o continuas. Ahora bien, ante una situaci´on real, es responsabilidad del observador, decidir qu´e modelo te´orico es el adecuado para describir el problema. Distribuciones discretas Distribuci´on uniforme discreta Una variable aleatoria discreta X que toma n valores enteros equiprobables recibe el nombre de variable uniforme discreta. Si la variable toma valores 1, 2, . . . , n, sus probabilidades asociadas ser´an 1 para todo k ∈ {1, 2, . . . , n} P (X = k) = n Su media y varianza son n+1 n2 − 1 σ2 = µ= 2 12 Distribuci´on de Bernoulli Consideremos un experimento aleatorio que admite s´olo dos resultados posibles excluyentes: suceso A (´exito) con probabilidad P (A) = p y suceso Ac (fracaso) con probabilidad P (Ac ) = 1 − p = q. La realizaci´on de un experimento de este tipo recibe el nombre de prueba de Bernoulli. Asociada una prueba de Bernoulli, se puede definir una variable aleatoria discreta X=”n´ umero de ´exitos al realizar una prueba de Bernoulli”, que toma el valor 0, cuando ocurre el suceso Ac con probabilidad q y el valor 1, cuando ocurre el suceso A, con probabilidad p. La funci´on de probabilidad de esta variable se puede escribir, por tanto: P (X = k) = pk q 1−k

para k = 0, 1.

Inmaculada de las Pe˜ nas Cabrera. Dpto de Matem´atica Aplicada

4

´ ˜ INDUSTRIAL. ESTAD´ISTICA APLICADA Y MODELIZACION. I.T. DISENO

Su media y varianza son µ=p

σ2 = p q

Distribuci´on binomial Supongamos que se realizan n pruebas de Bernoulli independientes, es decir, la probabilidad de ´exito, p, es la misma en todas las pruebas. Por ejemplo, si se lanza un dado tres veces, la probabilidad de sacar un seis es igual a 1/6, en los tres lanzamientos. A la variable aleatoria discreta X = ”n´ umero de veces que ocurre el suceso A (´exito) en las n pruebas” se la denomina variable aleatoria binomial de par´ ametros n y p. Los valores que toma la variable X son los ´exitos que se pueden producir cuando repito el mismo experimento n veces, luego ir´ıan desde 0 ´exitos hasta n ´exitos. La variable tomar´a el valor k arbitrario, cuando se produzcan k ´exitos y n − k fracasos. La probabilidad de k ´exitos es pk y la de n − k fracasos es (1 − p)n−k , luego la probabilidad de un resultado elemental con k ´exitos y n − k fracasos ser´a pk (1 − p)n−k . Ahora bien, los k ´exitos se pueden producir de varias formas distintas a lo largo de las n pruebas: pueden ocurrir en las k primeras pruebas o en las k u ´ltimas o un ´exito en la primera prueba y los k −1 fracasos, todos seguidos al final o...Hay que contar umero de subconjuntos de k elementos   el n´ n que se pueden formar con las n pruebas, esto es, k . Por lo tanto, si se denota por q a 1 − p, la funci´on de probabilidad de esta variable ser´a k n−k P (X = k)= n k p q

 

para k = 0, 1, 2, . . . , n. Para indicar que una variable X es una binomial de par´ametros n y p, se escribir´a X ∼ B(n, p). Su media y varianza son µ = np σ 2 = np q. Los valores de P (X = k) se encuentran tabulados para algunos valores de p entre 0 y 0.5. Si el valor de p es mayor que 0.5, entonces hay que tener en cuenta la denominada propiedad de simetr´ıa: dado un experimento de Bernoulli repetido n veces, se consideran las variables aleatorias X=” n´ umero de ´exitos en las n pruebas” (X ∼ B(n, p)) e Y =” n´ umero de fracasos en las n pruebas” (Y ∼ B(n, q)). Entonces, P (X = k) = P (Y = n − k).

Distribuci´on de Poisson ´ Este es un modelo probabil´ıstico u ´til para describir el n´ umero de veces que ocurre un determinado suceso a lo largo de una unidad de tiempo, ´area, volumen, etc., establecido. Una situaci´on caracter´ıstica de este tipo se da cuando se observa la cola que se forma en determinados servicios. El n´ umero de clientes que llegan a una caja de un supermercado en un cuarto de hora, el n´ umero de pacientes que llegan a la sala de urgencias de un hospital en una hora, el n´ umero de trabajos que recibe una impresora en red de una empresa por minuto, son variables cuya distribuci´on se puede describir con este modelo probabil´ıstico. Todas ellas tienen ciertas caracter´ısticas comunes: el n´ umero de clientes, pacientes o trabajos por unidad de tiempo es independiente del n´ umero de los mismos que llegan en otra unidad de tiempo; la probabilidad de que un cliente, paciente o trabajo llegue en una unidad de tiempo es la misma para todas las unidades. Si se denota por la letra griega λ al n´ umero esperado de ocurrencias de un suceso por unidad de tiempo, ´area, volumen, etc., la variable aleatoria X=”n´ umero de veces que ocurre un determinado

Inmaculada de las Pe˜ nas Cabrera. Dpto de Matem´atica Aplicada

5

´ ˜ INDUSTRIAL. ESTAD´ISTICA APLICADA Y MODELIZACION. I.T. DISENO

suceso por unidad de tiempo, ´area, volumen, etc.” se dice que sigue una distribuci´ on de probabilidad de Poisson de par´ametro λ. Puede tomar todos los valores enteros 0, 1, 2, . . . con probabilidades P (X = k) =

λk −λ e , k!

para k = 0, 1, 2, . . . .

Su media y varianza son σ2 = λ

µ=λ

Esta distribuci´on es una buena aproximaci´on de la binomial cuando n es grande y p peque˜ na, a saber, cuando p ≤ 0.1 y np < 5. Distribuciones continuas Distribuci´on uniforme continua Una variable aleatoria continua X que toma valores en un intervalo acotado de los n´ umeros reales sigue una distribuci´on uniforme cuando la probabilidad de que la variable tome valores en cualquier subintervalo del mismo, es proporcional a la longitud de dicho subintervalo, con lo que la probabilidad asociada a dos subintervalos de igual longitud es la misma. En tal caso, si [a, b] es el intervalo de la recta real en la que la variable toma valores, la funci´on de densidad es (

f (x) =

1 b−a

si

0

x ∈ [a, b] en el resto

Por tanto, su funci´on de distribuci´on es F (x) =

    

0

si x < a si x ∈ [a, b] si x>b

x−a b−a

1

Obs´ervese que la probabilidad de cualquier subintervalo [x1 , x2 ] ⊆ [a, b] viene dada por P (x1 ≤ X ≤ x2 ) =

Z

x2

x1

x2 − x1 1 dx = b−a b−a

Un c´alculo simple muestra que la media y varianza de la variable uniforme continua son µ=

a+b 2

σ2 =

(b − a)2 12

Distribuci´on normal Sin duda, es la m´as importante de todos los modelos probabil´ısticos, pues su aplicaci´on se extiende a numerosos campos de la naturaleza, la industria, la Econom´ıa, etc. Tiene su origen en la modelizaci´on de la distribuci´on de frecuencias relativas de errores cometidos al efectuar repetidas veces una medici´on. Una variable continua X se dice que tiene una distribuci´ on normal de media µ y desviaci´on t´ıpica σ y se representa por X ∼ N(µ, σ), si puede tomar cualquier valor de los n´ umeros reales y su funci´on de densidad es 2 1 (x−µ) 1 f (x) = √ e− 2 σ2 σ 2π La funci´on de densidad f (x) presenta un m´aximo en x = µ, dos puntos de inflexi´on en x = µ−σ y x = µ + σ y tiene al eje OX como as´ıntota. Su gr´afica es sim´etrica respecto a la recta x = µ. Al tratarse de una variable continua, para calcular probabilidades asociadas a la normal, por ejemplo Z x2 2 1 (x−µ) 1 √ e− 2 σ 2 P (x1 ≤ X ≤ x2 ) = x1 σ 2π Inmaculada de las Pe˜ nas Cabrera. Dpto de Matem´atica Aplicada 6

´ ˜ INDUSTRIAL. ESTAD´ISTICA APLICADA Y MODELIZACION. I.T. DISENO

habr´ıa que calcular la integral anterior, pero ´esto no puede hacerse anal´ıticamente, sino que habr´ıa que emplear m´etodos de integraci´on num´erica. El recurso que queda es tabular las dististas probabilidades posibles, pero como depende de los valores de los par´ametros µ y σ, en principio, ser´ıa necesario construir una tabla distinta para cada par de valores. Sin embargo la tipificaci´on de una variable normal de par´ametros µ y σ, da lugar a otra variable normal, ´esta, de media 0 y desviaci´on t´ıpica 1. Si una variable X es N(µ, σ), la nueva variable Z=

X −µ σ

sigue tambi´en una distribuci´on normal de media 0 y desviaci´on t´ıpica 1, es decir Z es N(0, 1). A la variable Z se le denomina variable tipificada de X y a la curva de su funci´on de densidad curva normal est´ andar o tipificada. La distribuci´on de la variable normal de media 0 y desviaci´on t´ıpica 1 se encuentra tabulada. En las tablas aparecen ´areas bajo la curva normal, a la derecha de un punto zα . Por zα se representa el valor de la abcisa que tiene a la derecha un ´area bajo la curva normal igual a α, es decir P (Z ≥ zα ) = α. Habitualmente, s´olo se encuentran tabulados valores de Z positivos o ´areas α ≤ 0.5. Para valores de Z menores que cero, debido a la simetr´ıa se tendr´a en cuenta que si −zα ≤ 0, entonces P (Z ≤ −zα ) = P (Z ≥ zα ). Para las ´areas a la izquierda, se tiene que P (Z ≤ zα ) = 1 − P (Z ≥ zα ) = 1 − α. Por otra parte, para calcular probabilidades asociadas a intervalos, distinguimos los casos siguientes: a) si a, b ≥ 0, entonces P (a ≤ Z ≤ b) = P (Z ≥ a) − P (Z ≥ b) b) si −a, −b ≤ 0, entonces P (−a ≤ Z ≤ −b) = P (a ≤ Z ≤ b) y se calcular´ıa como el caso anterior c) si −a ≤ 0 y b ≥ 0, entonces P (−a ≤ Z ≤ b) = 1 − [P (Z ≤ −a) + P (Z ≥ b)] = 1 − [P (Z ≥ a) + P (Z ≥ b)] La gran utilidad de la variable tipificada Z es que nos permite calcular ´areas (y por tanto probabilidades) de cualquier distribuci´on normal. Si X es N(µ, σ) entonces P (a ≤ X ≤ b) = P

X −µ b−µ a−µ ≤ ≤ σ σ σ

!

!

=P

a−µ b−µ ≤Z≤ . σ σ

Si X es una variable binomial de par´ametros n y p, entonces si n es grande y ni p ni q son √ pr´oximos a cero, podemos considerar que X sigue aproximadamente una distribuci´on N(np, npq). Por tanto, la variable tipificada correspondiente X − np Z= √ npq

es N(0, 1).

Se puede afirmar que la aproximaci´on es suficientemente buena cuando np > 5, si p ≤ 0.5, o bien nq > 5, si p > 0.5. Hay que tener en cuenta que para utilizar correctamente esta transformaci´on de una variable discreta X (con distribuci´on binomial) en una variable continua Z (con distribuci´on normal) es Inmaculada de las Pe˜ nas Cabrera. Dpto de Matem´atica Aplicada

7

´ ˜ INDUSTRIAL. ESTAD´ISTICA APLICADA Y MODELIZACION. I.T. DISENO

necesario hacer una correcci´on de continuidad. T´engase en cuenta que P (X = a), saldr´ıa siempre ´ igual a cero. Esto se evita identificando el suceso {X = a} con {a − 0.5 ≤ X ≤ a + 0.5}, es decir √ P (X = a) = P (a − 0.5 ≤ X ≤ a + 0.5) = P (a − 0.5 ≤ N(np, npq) ≤ a + 0.5) = P

a − 0.5 − np a + 0.5 − np ≤Z≤ √ √ npq npq

!

Esta correcci´on puede extenderse a cualquier intervalo de forma que √ P (a ≤ X ≤ b) = P (a − 0.5 ≤ N(np, npq) ≤ b + 0.5)

Inmaculada de las Pe˜ nas Cabrera. Dpto de Matem´atica Aplicada

8