DISTRIBUCIONES DE PROBABILIDAD FUNDAMENTALES

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos DISTRIBUCIONES DE PROBABILIDAD FUNDAMENTALES ¿Para qué? Par...
9 downloads 0 Views 740KB Size
____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

DISTRIBUCIONES DE PROBABILIDAD FUNDAMENTALES

¿Para qué? Para conocer y explotar el hecho de que la mayoría de los fenómenos, bien responden a determinados patrones, que denominamos distribuciones de probabilidad fundamentales o bien es posible, mediante artificio matemático, reducirlos a dichas distribuciones, lo que nos permite predecir sucesos, establecer comparaciones entre ellos y dar un paso decisivo (más bien un auténtico salto cualitativo) en el proceso de toma de decisiones.

Signature Not Verified

Teodoro Rodriguez

Digitally signed by Teodoro Rodriguez DN: cn=Teodoro Rodriguez, o=Colegio Marista Cristo Rey, c=US Date: 2002.08.24 08:54:24 +02'00'

65

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Distribuciones de Probabilidad fundamentales Variable aleatoria Definición: Sea E el espacio muestral asociado a un experimento aleatorio. Se denomina variable aleatoria a toda aplicación del espacio muestral E en un subconjunto de los números reales. X :E →S ⊆ℜ si → xi Definición: Una variable aleatoria se dirá discreta, si toma un número finito o infinito numerable de valores. Definición: Una variable aleatoria se dirá continua, si toma infinitos valores en un intervalo de la recta real. Función de densidad de probabilidad y función de distribución de probabilidad

Definición: Función de Distribución Dada una variable aleatoria ξ, se define la función de distribución de ξ como sigue: F ( x) = P(ξ ≤ x) ∀x ∈ ℜ Es decir, la función de distribución asigna a cada número real x la probabilidad acumulada hasta dicho valor. Propiedades: i. 0≤F(x)≤1 ∀x ∈ ℜ , es decir, la gráfica de una función de distribución está siempre en la franja (0,1) ii. ∀a ≤ b P(a ≤ ξ ≤ b) = F (b) − F (a) iii. La función de distribución es continua por la derecha en todo punto. No puede afirmarse lo mismo respecto a la izquierda, ya que para una variable discreta, se trata de una función escalonada.

Definición: Función de Densidad (Variable Discreta) Sea ξ una variable discreta que puede tomar los valores x1,.......,xn; se denomina función de densidad o cuantía a la función f(x) que asigna a cada valor de la variable, la probabilidad de que ocurra: f ( x i ) = P(ξ = x i ) Propiedades: 0 ≤ f ( xi ) ≤ 1 ∀xi i. ii.

n

∑ f (x ) = 1 i

i =1

66

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos iii.



∑ f ( x ) = 1 Si x recorre un infinito numerable i

i =1

Definición: Función de Densidad (Variable Continua) Se dice que f(x) es una función de densidad de probabilidad o simplemente una función de densidad de la variable aleatoria ξ continua, si se verifica: f ( x) ≥ 0 ∀x ∈ ℜ;





−∞

f ( x)dx = 1; P (a < x ≤ b) =



b

a

f ( x)dx

En la igualdad anterior, es indistinto usar < o ≤ ya que el valor de la integral no varía. Relación entre función de densidad y distribución

-

Variable discreta Dada f(xi), función de densidad, puede obtenerse la función de distribución como sigue: j

F (x j ) =

∑ f (x ) i

i =1

Análogamente, si F(xj) es conocida, puede obtenerse la función de densidad como sigue: f ( x j ) = F ( x j ) − F ( x j −1 )

-

Variable continua Conocida f(x) función de densidad, puede obtenerse la función de distribución F(x) como sigue: F ( x) =



x

−∞

f ( x)dx

Análogamente, si F(x) es conocida, puede obtenerse f(x) haciendo: f ( x ) = F ' ( x)

Teorema de Chebyshev Hemos visto anteriormente que la varianza es una medida de la desviación de los datos con respecto a la media. Chebyshev, matemático ruso, enunció y demostró un teorema que da una estimación de la probabilidad de que una variable aleatoria se desvíe de la media menos de k desviaciones típicas. Se enuncia como: P[µ − kσ < ξ > µ + kσ ] ≥ 1 −

1 k2

Y es válido para variables discretas y continuas.

67

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos Parámetros de una variable aleatoria discreta

Definición: Se denomina media o Esperanza Matemática de la variable aleatoria X, y se denota como E(X) o µ al sumatorio: µ = x1 p1 + ......... + xn pn =

n

∑x p

i i

i =1

Definición: La varianza de una variable aleatoria X, se denota como σ 2 y su cálculo responde a la expresión: σ ² = ( x1 − µ )² p1 + ........ + ( xn − µ )² pn =

n

∑ ( x − µ )² p i

i

i =1

Definición: La desviación típica de la variable X, se denota como σ y se calcula como: σ = σ² =

n

∑ ( x − µ )² p i

i

i =1

NOTA: En las tres definiciones anteriores, pi es la probabilidad de que ocurra el suceso xi, , como por otra parte resulta fácil imaginar. Variable aleatoria continua. Diferencias

Si la variable aleatoria es continua, la función de distribución como tal no tiene sentido y usamos en su sustitución la denominada función de densidad, que representa la distribución de probabilidad de una variable continua. Una función y=f(x) es la función de densidad de una variable aleatoria continua X, si cumple: - f ( x) ≥ 0 ∀x - El área total encerrada bajo la gráfica es la unidad - La probabilidad de que la variable tome valores en el intervalo (xi,xj) es precisamente el área bajo la curva en dicho intervalo. Aún así, es posible definir una función de distribución de variable continua: Definición: Una función F(x) se llama función de distribución de una variable continua X, si: - F’(x) es una función de densidad de la variable X - F ( x) = 0 ∀x < xi siendo xi el menor valor de X - F ( x) = 1 ∀x > x j siendo xj el mayor valor de X

68

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos Distribución Binomial

Definición: Un experimento aleatorio se dirá que sigue una distribución Binomial o de Bernouilli, si: - En cada ensayo sólo es posible obtener dos resultados; el suceso A, que denominamos éxito y su complementario, A , que denominamos fracaso. - El resultado obtenido en cada ensayo, es independiente de los obtenidos anteriormente. - Las probabilidades de A y A son constantes, y se verifica que P(A)=p, P( A )=q y p+q=1 - En cada experimento se realizan n pruebas idénticas. Definición: La variable X, que muestra el número de éxitos obtenidos en cada prueba del experimento, se denomina Variable Aleatoria Binomial. Supongamos que realizamos n pruebas de un experimento que sigue el modelo binomial y deseamos conocer la probabilidad de obtener r éxitos en esas n pruebas. Es decir, consideramos el suceso B, caracterizado por la aparición de r éxitos y n-r fracasos. Al tratarse de sucesos independientes, y teniendo en cuenta que P(A)=p y P( A )=q, podríamos afirmar que P(B)=prqn-r. Ahora bien, esos éxitos y fracasos, pueden obtenerse en cualquier orden, por lo que el número de sucesos con r éxitos y n-r fracasos, son exactamente las permutaciones de n elementos con r repeticiones del suceso A y n-r repeticiones del suceso A , es decir: PRnr , n − r =

 n n! = Cnr =   r!(n − r )! r 

De manera que la probabilidad de obtener r éxitos, será exactamente:  n P ( X = r ) =   p r q n − r r 

De donde, generalizando, la función de distribución de la Binomial B(n,p) será: 0 si xi < 0  h  n  j n− j    p q F ( xi ) =  P (ξ ≤ x j ) = j  j =0    1 si xi > n



si 0 ≤ xi ≤ n

69

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos Los parámetros de una distribución binomial, pueden calcularse de forma abreviada a partir de n y p como: µ = n· p σ ² = n· p·q

σ = n· p·q

Distribución Normal

Definición: Diremos que una variable aleatoria X sigue una distribución normal de media µ y desviación típica σ si se cumplen las siguientes condiciones: -

El recorrido de X es todo ℝ La función de distribución tiene la siguiente forma funcional f ( x) =

-

1

σ 2π

 x−µ  −1  ² 2  σ  e

La distribución se designará entonces por N(µ,σ), siendo µ la media de la distribución y σ su desviación típica.

Propiedades : Pueden establecerse a partir de la observación de su gráfica

f (µ − x0 )

 1   µ ,  σ 2 π  

-

∃ ∀ℜ f (µ − x ) = f (µ + x0 )

-

La gráfica es simétrica respecto del eje x=µ 1 Máx f(x)=f(µ)= σ 2π x1=(µ-σ) y x2=(µ+σ) son puntos de inflexión OX es asíntota horizontal El área encerrada bajo la curva es la unidad.

-

µ − x0

µ + x0

-

Distribución normal estándar: Es la usada para tabulación, está definida de forma que µ=0 y σ=1. La función de distribución resultante, es: 1 −x² 2 f ( x) = ·e 2π

70

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos Casuística del manejo de tablas de la distribución normal. - P(X ≤ x)- Valor en tablas - P(X>x)=1-P(X ≤ x) - P(Xx)=1-P(X ≤ x) - P(X>-x)=1-P(X ≤ -x)=1-P(X ≥ x)=1-(1-P(X30, motivo por el cual, las tablas t-Student llegan sólo a 30 grados de libertad. Distribución F de Snedecor

Es una distribución de probabilidad llamada tras la inicial de Fisher, descubridor de la denominada z de Fisher, precursora de la variable F descrita como F = e 2 z . Sean η1 , η 2 ,....η m , η '1 , η ' 2 ......η ' n n+m variables aleatorias independientes e igualmente distribuidas según N(0,σ). Se define entonces la variable F con (m,n) grados de libertad, como: 1 2 η1 + ........ + η m2 Fm , n = m 1 2 η '1 +......... + η ' 2n n

(

)

(

)

Distribución Uniforme

Se dice que la variable ξ es uniforme en el intervalo (a,b) y se denota ξ ∈ U(a, b) , si su función de densidad es constante en el intervalo (a,b) y 0 en el resto de su recorrido. Al ser constante en (a,b) y tratarse de una función de densidad, ha de verificarse que: ∞ b 1 ∫−∞ f ( x)dx = 1 ⇒ ∫a kdx = 1 ⇒ k = b − a La función de densidad de la variable ξ ∈ U(a, b) , quedará como: 0 si x ≤ a  1  f ( x) =  si a ≤ x ≤ b b − a 0 si x ≥ b Sus parámetros fundamentales, serán: a+b Esperanza matemática: µ = 2 1 Varianza: σ ² = (b − a)² 12 3 Desviación típica: σ = (b − a) 6

76

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Distribuciones de Probabilidad. Problemas General 1. La distribución de probabilidad de una variable aleatoria discreta X, viene dada por -2 -1 0 1 2 xi P(x=xi) 0.08 0.32 0.05 m 0.32 Calcúlense f(1), f(2), f(2), f(3) y m 2. Halla la función de probabilidad del experimento que consiste en lanzar dos dados y anotar la suma de las puntuaciones obtenidas. 3. En el experimento anterior, halla la función de distribución y represéntala gráficamente. 4.

Halla la media, la varianza y la desviación típica de una variable aleatoria X que tiene como función de probabilidad: 0 1 2 3 xi f(xi) 0.2 0.3 0.1 0.4

5. En una urna hay 4 bolas rojas y 2 negras. El experimento consiste en extraer 5 bolas con devolución o reemplazamiento. Halla la función de probabilidad y la función de distribución de la variable "número de bolas negras". Distribución Binomial 1. La probabilidad de que una pieza fabricada por una empresa sea defectuosa es 0,1. Halla la probabilidad de que en una muestra de 100 piezas, se encuentren 3 defectuosas. 2. La probabilidad de que un estudiante de Matemáticas obtenga título es de 0,2. Halla la probabilidad de que de un grupo de seis estudiantes, al menos 2 acaben la carrera. 3. Halla la media, la varianza y la desviación típica de la distribución binomial B(150; 0,3 )

77

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos 4. Una moneda está trucada, de forma que la probabilidad de obtener cara es 4/7. Se lanza la moneda 10 veces. Calcúlese: a) Probabilidad de obtener 7 caras b) Probabilidad de obtener, como máximo 4 cruces. 5. Un dado numerado del 1 al 6, está trucado de forma que la probabilidad de obtener número par es 11/24. Se lanza el dado 12 veces. Calcúlese: a) Probabilidad de obtener 6 números pares b) Probabilidad de obtener 12 números pares 6. La probabilidad de que un tirador haga blanco en un disparo, es de 0,2, halla la probabilidad de que en una serie de cinco disparos: a) No haga ningún blanco b) Haga cinco blancos c) Haga más de 3 blancos. Distribución Normal 7. a) b) c) d) e) f)

En una distribución normal N(0,1), calcula: P(x≤0,7) P(x>0,55) P(0,4≤x≤0,7) P(x≤0,83) P(x>-0,45) P(-0,5≤x≤7)

8. a) b) c) d)

Dada una distribución N(7; 2,5), calcula: P(x≤4) P(x≥8) P(5≤x≤7) P(5≤x≤9)

9. Dada la distribución B(150, 0,2) a) Comprueba si puede ajustarse a una normal b) Transfórmala en una distribución normal si la respuesta a la primera pregunta es positiva. 10. Se lanza una moneda de curso legal 100 veces, calcúlese la probabilidad de: a) Obtener más de 55 caras b) Obtener menos de 25 caras

78

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos 11. En la distribución N(0,1), calcula el valor de k en los casos siguientes, sabiendo que k≥0: a) P(z≤k)=0.9066 b) P(z≤k)=0.6368 c) P(z≥k)=0.0014 12. La duración media de una picadora de cocina es de 4 años, con una desviación típica de 0,3 años. Si la vida de la picadora se distribuye normalmente, halla la probabilidad de que al comprar una unidad ésta dure más de 6 años. 13. El peso de los individuos de una población americana, se distribuye normalmente con una media de 90 Kg. y una desviación típica de 20 Kg. Calcúlese el porcentaje de individuos cuyo peso esté comprendido entre 70 y 75 Kg. 14. Una máquina que expende bebidas, está programada de forma que descarga una media de 200 cm³. por vaso. Si la cantidad de líquido dispensado está distribuida normalmente con una desviación típica de de 15 cm³, calcúlese a) Porcentaje de vasos que llenará con más de 220 cm³ b) Si usamos seis vasos de 220 cm³, ¿cuál es la probabilidad de que se derrame líquido exáctamente en 2 vasos? 15. Se sabe que la nota de determinado examen, está distribuida según una normal, sabemos que el 17 % tiene una nota superior a 6 puntos, mientras que el 17 % tiene una nota inferior a 4 puntos. Calcúlese: a) Porcentaje de estudiantes con nota comprendida entre 4 y 6 b) Nota media del examen. 16. De un estudio de nieblas ocurridas durante el mes de marzo en un aeropuerto durante 50 años, se han obtenido los siguientes resultados: 25 años sin nieblas, 15 con una niebla, 6 años con dos nieblas, tres años con 3 nieblas y un año con cuatro nieblas. Determinar la distribución de Poisson que representaría el fenómeno y calcular las probabilidades teóricas que corresponderían a cada suceso. 17. En una estación de montaña, se han observado 20 días con altura de nieve mayor que h, durante un período de 10 años. Suponiendo que es aplicable la distribución de Poisson, calcular la probabilidad de superar dicho valor h: a) Menos de cinco veces en los próximos 2 años b) Más de tres veces en el próximo año

79

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

PAFNUTI LVOVICH CHEBYSHEV En 1847, Pafnuty Chebyshev fue nombrado profesor de la Universidad de San Petersburgo. Fue también asociado foráneo al Institut de France en 1874, así como miembro de la Royal Society. Es especialmente famoso por sus trabajos sobre números primos y escribió en 1849 un Tratado sobre la Teoría de la Congruencia. Realizó importantes aportaciones al Cálculo Integral. Mostró también interés por la Mecánica y la conversión del movimiento rotatorio en movimiento rectilíneo, mediante acoplamiento mecánico. Escribió papeles acerca de numerosos temas, de entre los que resultan especialmente destacables aquellos que versaban sobre la Teoría de la Probabilidad, Formas Cuadráticas, Funciones Ortogonales, Teoría de Integrales y Cálculo de Volúmenes Genéricos.

80

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

TEORÍA DE MUESTRAS

¿Para qué? Para conocer características de una población a partir de un grupo pequeño de elementos de la misma. Para conocer los errores que podemos cometer cuando aventuramos características de la población a partir las muestras de la misma.

81

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Teoría de muestras Existen situaciones de estudio científico en las que resulta prácticamente imposible tomar datos de todos los elementos de la población. En tales situaciones, por cuestiones de tiempo y economía, se reduce el estudio a determinados subconjuntos de la población, que denominamos MUESTRAS. Es a partir de ellas que intentamos obtener conclusiones válidas para toda la población. La inferencia estadística es la disciplina que intenta regular las condiciones en que los parámetros muestrales pueden considerarse válidos para la población completa y en qué medida cometemos errores al hacer tal apuesta de simplificación. Tipos de muestreo

Muestreo Probabilístico Caracterizado porque conocemos apriorísticamente la probabilidad de que un elemento de la población pase a formar parte de la muestra. Puede ser llevado a cabo de dos formas diferentes: a) Con reemplazamiento: cuando el elemento escogido puede ser elegido de nuevo al reincorporarse a la población tras el proceso de extracción. b) Sin reemplazamiento: cuando el elemento escogido se retira definitivamente de la población Aparte de esta caracterización por el modo concreto en que se lleva a cabo la selección de elementos de la muestra, podemos definir diferentes tipos de muestreo probabilístico. c) Aleatorio Simple: Diremos que un muestreo es Aleatorio Simple, si todas las posibles muestras de determinado tamaño extraídas de una población, tienen las mismas probabilidades de ser seleccionadas. d) Sistemático: Consiste en establecer una rutina de extracción para los elementos de la muestra de tamaño n, estableciendo previamente n grupos en la población e) Estratificado: Consiste en dividir la población en grupos homogéneos o estratos, dentro de los cuales se realiza un muestreo aleatorio simple. f) Por Conglomerados: En una primera etapa, consiste en seleccionar grupos de características comunes, que llamaremos conglomerados, dentro de la 82

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos población. Posteriormente estableceremos nuevos conglomerados dentro de cada conglomerado inicial, y elegiremos individuos dentro de éstos últimos. Muestreo no Probabilístico Se trata en definitiva de un tipo de muestreo "a ojo", de escaso valor estadístico, aunque con la suficiente intuición puedan mostrarse acertados en algún tipo de cuestión. Son, en general, poco recomendables.

Distribución teórica muestral

Para diseñar estrategias de muestreo, supondremos que la población sigue cierta distribución conocida, lo que permitirá establecer una distribución teórica para la muestra. Muestra Aleatoria. Estadístico

Cuando tenemos en consideración una determinada población para su estudio, supondremos que vendrá determinada en todos sus valores por una variable aleatoria, que se comportará de acuerdo con determinado proceso probabilístico, generalmente binomial o normal. Si denotamos por X la variable aleatoria correspondiente a la característica que se pretende estudiar, consideramos que las n observaciones x1,....xn que se hacen de la población, son n valores de n variables X1,.......Xn independientes, que siguen la misma distribución de la variable X. Cualquier función que se obtenga mediante operaciones a partir de X1,......Xn, se denominará Estadístico Muestral. Propiedades esenciales deseables en un estimador

1. Se dice que un estimador H es insesgado para el parámetro poblacional θ, si se verifica que E(H)= θ, lo que se lee como: "La Esperanza Matemática de H es θ". Siendo la esperanza matemática y la media, conceptos idénticos. 2. Dados dos estimadores H1 y H2 del parámetro θ, ambos insesgados, diremos que H1 es más eficiente que H2 si se verifica que σ²(H1) λα  =1- α  2 2  lo que equivale, deshaciendo la tipificación a  σ σ  < x < µ + λα . P  µ − λα .  = 1 − α (1) 2 2 n n  De ello, puede deducirse que :  σ σ  < µ < x + λα . P  x − λα .  = 1 − α (2) 2 2 n n  La expresión (1) no tiene utilidad alguna, ya que la media poblacional es desconocida; la expresión (2), por el contrario, da lugar a la formulación del intervalo de confianza para la media poblacional  σ σ   x − λα · , x + λα ·  2 2 n n  Para un problema concreto, x es la media de una muestra seleccionada al azar y los extremos del intervalo, serán dos números enteros entre los que afirmaremos se encuentra la media poblacional, con una confianza del (1-α)%. -Debe entenderse que esta construcción del intervalo, no significa que el parámetro poblacional µ "caiga" entre sus valores extremos, ya que la media poblacional es, en este caso, un parámetro desconocido que intentamos estimar, pero que en ningún caso calculamos. La interpretación correcta, nos indicaría que si tomásemos muchas muestras, y calculásemos el intervalo de confianza en todas ellas, el (1-α)% de los mismos, contendría a µ en su interior, mientras que el α% restante, no lo haría.

92

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos Caso 2. Población cualquiera con σ conocida En este caso particular, tomaremos muestras de tamaño n>30 y mediante la aplicación del Teorema Central del Límite (en adelante TCL), aplicaremos el mismo intervalo anterior Caso 3. Población normal con σ desconocida Podemos demostrar, aunque no lo hacemos por exceder dicha demostración el carácter de iniciación de este curso, que la variable auxiliar o estadístico x−µ . n s sigue una distribución t-Student con n-1 grados de libertad, con lo que, fijado un nivel de confianza 1-α, puede obtenerse en las tablas de dicha distribución, el valor tα , tal que : 2

  x−µ P  − tα < n < tα  = 1 − α 2 2 sˆ   Lo que facilita la formulación del intervalo de confianza para la media poblacional

 sˆ sˆ   al (1-α)%  x − tα , x + tα 2 2 n n  En este caso, el valor de σ desconocido, se estima mediante el estimador insesgado que hemos denominado Cuasivarianza, definido anteriormente. Caso 4. Población cualquiera con σ desconocida En la práctica, suele usarse el intervalo del caso 1, estimando σ mediante s si n>30 y el intervalo del caso 3, si n30 y n2>30 y aplicar el mismo intervalo de confianza del caso anterior. Caso3. Poblaciones normales con σ1 y σ2 desconocidas Usaremos el mismo intervalo del Caso 1, estimando σ1 y σ2 mediante s1 y s2 (desviaciones típicas muestrales) Caso 4. Poblaciones normales con σ1 y σ2 desconocidas pero iguales Admitiremos, sin demostrar, que estimando σ1 y σ2 mediante s1 y s2 , llegamos al intervalo de confianza siguiente, usando una t-Student con n1+n2-2 grados de libertad. 2 2 2 2    x − x − t . n1 s1 + n 2 s 2 1 + 1 , x − x + t . n1 s1 + n 2 s 2 1 + 1  α α 1 2 2  1 2 2 n1 + n 2 − 2 n1 n 2 n1 + n 2 − 2 n1 n 2   Intervalos de confianza para la varianza

Puede demostrarse que la variable auxiliar ns ²

σ ² , se distribuye según una χ² de

Pearson con n-1 grados de libertad. Ello permite establecer el intervalo de confianza al (1-α)% para la varianza poblacional, como sigue:    ns ² , ns ²   χ12−α χα2   2 2  2 2 siendo χ α y χ 1−α los valores obtenidos en las tablas de la χ² con n-1 grados de 2

2

libertad, que dejan a su izquierda y derecha, respectivamente, un área igual a α y 2 94

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos 1−α . 2

α/2

1-α

χ α2

2

1-α/2

χ 12−α

2

Naturalmente, por métodos similares, pueden obtenerse intervalos de confianza para otros muchos parámetros estadísticos.

95

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Teoría de la estimación. Problemas. 1. Supongamos una población formada por los siguientes pesos expresados en kilogramos: 65, 70, 75, 90. Calcúlense media y desviación típica poblacionales. Supongamos que de dicha población extraemos muestras con reemplazamiento de tamaño 2. ¿Cuántas muestras diferentes pueden extraerse? ¿Cuáles son?, construye la lista completa de las mismas y la distribución de las correspondientes medias y desviaciones típicas muestrales. Con todos los datos disponibles, concluye si la media muestral y la desviación típica muestral, son estimadores insesgados de los correspondientes parámetros poblacionales. 2. Utilizando los datos del ejercicio anterior, determínese si la moda muestral es un estimador insesgado de la media poblacional. 3. Calcular la cuasivarianza de la siguiente muestra de tamaño 6: 23, 56, 45, 32, 43, 28. 4. Supongamos que la desviación de una población normal de diámetros de arandelas es 0,1 mm. Obténganse intervalos de confianza para la media de la población, con niveles de confianza 0.90, 0.95 y 0,99, suponiendo un tamaño de muestra 20. ¿Cómo varía el intervalo de confianza en función del nivel de confianza? 5. En las mismas hipótesis del problema anterior, determínense intervalos de confianza para la media poblacional, con muestras de tamaño 10, 20 y 30,suponiendo en todo caso, un nivel de confianza de 0,95. ¿Cómo varía el intervalo de confianza con respecto al tamaño de la muestra?. 6. Constrúyase un intervalo de confianza al nivel de significación 0,01 para la media de una población normal, sabiendo que la varianza poblacional es 10.000 y suponiendo un tamaño de muestra n=20. 7. Obténgase un intervalo de confianza al nivel de significación 0,05 para la media poblacional correspondiente a los saldos bancarios medios de determinada sucursal, en millones de pesetas. Se tomó la siguiente muestra aleatoria de tamaño 6: 2, 0, 4, 1, -2, 4 8. La probabilidad de que una variable N(0,1) esté comprendida entre –l (ele) y l es 0,90. Calcúlese l. 96

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos 9. En una multinacional de servicios, se modifica la aplicación informática de gestión. Los tiempos en horas que tardaron 15 trabajadores en adaptarse al nuevo sistema, fueron los siguientes: 3.3, 2.9, 4.3, 2.6, 3.2, 4.1, 4.9, 2.8, 5.5, 5.3, 3.6, 3, 3.5, 2.9, 4.7. Determínese un intervalo de confianza al 95% para el “verdadero” tiempo de adaptación. El responsable de implantación del nuevo sistema, considera que el tiempo medio de adaptación es superior a las cinco horas ¿qué podemos decir de tal aseveración? 10.

Un fabricante de baterías de coche, afirma que duran cuatro años con una desviación de 1 año. Se tiene una muestra de 5 baterías que duraron respectivamente 3, 5, 5.8, 6.4, y 8 años. Determínese un intervalo de confianza al 99% para s² e indíquese si es válida la afirmación del fabricante.

11.

Una máquina llena paquetes de harina. El supervisor del proyecto, desea conocer con un error de estimación máximo de 2 y un nivel de confianza del 90% una medida estimada del peso. Como la varianza es desconocida, se procedió a la estimación de una muestra piloto, que dio los siguientes resultado en gramos: 247, 253, 248, 245, 258, 249, 254, 249. Calcúlese dicho intervalo de confianza y dimensiónese la muestra para poder alcanzar el error de estimación preciso. Nota: El error de estimación no es otra cosa que la semilongitud del intervalo de confianza.

12.

Una muestra aleatoria de 100 vecinos de determinada ciudad, indica que caminan diariamente una media de 0,9 Km con una desviación de 0,7. Calcúlese un intervalo de confianza al 90% para la media de kilómetros caminados a diario por los habitantes de dicha ciudad. interprétese el resultado.

13.

Para realizar el control de calidad de un proceso de fabricación de tornillos, se toman muestras de tamaño 10 y se mide la longitud de cada unidad. Se requiere que la longitud del tornillo fabricado no difiera de 24 mm en más de 0,3 mm; estando éste último desvío garantizado de antemano. Para ver si el proceso cumple las especificaciones, obtenemos un valor de media muestral de 24,5 mm. A partir de este valor, inténtese contrastar la hipótesis µ=24, frente a la alternativa µ≠24.

14.

Se mide una muestra de 9 carretes de hilo que presentaron una resistencia media de 4,40 Kg. y una desviación de 1,15. Suponiendo que la resistencia a 97

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos la tensión es una variable normal, ¿deberíamos hacer caso al fabricante cuando afirma que la resistencia de sus hilos es de 4,5 Kg? 15.

Las calificaciones obtenidas por diez alumnos de un colectivo que realizó un examen, fueron las siguientes: 4.3, 5.7, 6.8, 3, 2, 7, 6, 3, 3, 9. Trátese de contrastar la hipótesis “La media del examen fue 6” frente a la alternativa “la media del examen fue distinta de seis” 16. Supongamos una población formada por las cantidades de camarones, en kilogramos, vendidas en una lonja portuaria: 650,700,750,900. Calcúlense: a) Media y Varianza poblacionales b) Lista de muestras con reemplazamiento de tamaño 2 c) Distribución de las medias muestrales d) Esperanza matemática de las medias muestrales e) Determínese si la esperanza matemática de las medias muestrales, es un buen estimador (INSESGADO) de la media poblacional. f) Realícese el mismo tratamiento con las varianzas muestrales y determínese si la varianza muestral es estimador INSESGADO de la varianza poblacional. g) Realícese el mismo tratamiento con las cuasi-varianzas muestrales y determínese si la cuasi-varianza muestral es estimador INSESGADO de la varianza poblacional. 17. Utilizando el dataje del ejercicio nº11, determínese si la moda muestral es un estimador insesgado de la moda poblacional. 18. Calcular la cuasi-varianza de la siguiente muestra de tamaño 6: 23, 56, 45, 32, 43, 28. 19.

Supongamos que la desviación de los diámetros de los tornillos fabricados por una máquina es 0,1 mm. Obténgase un intervalo de confianza para la media de dicha población, basado en una muestra de tamaño 20, al nivel de confianza del 90%.

20. Calcúlese, en las mismas condiciones anteriores, el intervalo de confianza del 95% y estúdiese como cambia la longitud del intervalo con respecto al nivel de confianza. 21.

En condiciones análogas al ejercicio anterior, calcúlese el intervalo de confianza al 95 % para una muestra de tamaño 30 y estúdiese cómo varía la longitud del intervalo con respecto al tamaño de la muestra.

22.

Calcúlese un intervalo de confianza al nivel de significación 0,01 para la media de una población normal, sabiendo que la varianza poblacional es 100 y tomando 98

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos una muestra aleatoria simple de tamaño 30. 23. Calcúlese un intervalo de confianza para la media de una población cualquiera de la que se desconocen tanto media como desviación típica, y de la que se extrajo una muestra piloto formada por los siguientes elementos: 2,0,4,1,-1,-2,4.

99

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

WILLIAM SEALEY GOSSET Fue el hijo mayor del coronel Frederic Gosset, R.E. Nació en Canterbury en el año de 1876 y falleció el 16 de octubre de 1937. Se educó en Winchester, en donde más tarde fue profesor, y en el New College de Oxford en donde estudió química y matemáticas. En 1899 se inició en trabajos en el departamento de fermentación de la compañía cervecera de los Sres. Guinness en Dublin. No se sabe con exactitud en qué momento empezó a interesarse Gosset en la estadística, sin embargo en esa época se empezaron a usar métodos científicos y determinaciones de laboratorio para técnicas de fermentación, por lo que es muy posible que siendo Gosset el de mayor inclinación matemática del departamento de fermentación, recibiera las preguntas que le hacían sus colegas sobre los métodos estadísticos en uso y sobre la masa de datos que se recolectaban -los cuales requerían análisis-. Quizá esto lo motivó a estudiar la materia más a fondo. Su principal herramienta y con la que inició sus estudios fueron los libros "Teoría de errores de observaciones" de G.B.Airy y "El método de mínimos cuadrados" de M. Merriman. Se sabe que ya en 1903 él calculaba el error probable. Las circunstancias en las que se llevan a cabo los procesos de fermentación en la producción de cerveza, con materiales variables, susceptibilidad a cambio de temperaturas y necesariamente series pequeñas de experimentos, son tales que pronto demostraron a Gosset las limitaciones de la teoría de muestras grandes y le enfatizaron la necesidad de un método correcto para el tratamiento de muestras pequeñas. No fue entonces accidente, sino más bien las circunstancias de su trabajo, las que dirigieron a Gosset hacia este problema, y lo condujeron al descubrimiento de la distribución de la desviación estándar muestral, lo cual dio origen a lo que en su forma moderna se conoce como la prueba t. Durante mucho tiempo después de su descubrimiento, el uso de esta prueba no se conoció ampliamente fuera de la compañía Cervecera Guinness, en donde se le ha usado intensamente desde entonces. En al menos una ocasión le fue ofrecida una posición académica en la que tal vez hubiera sido un buen profesor, pero es muy poco probable que su trabajo de investigación hubiera florecido en circunstancias académicas; su mente funcionaba de forma diferente. Egon Pearson, quien tuvo la fortuna de conocerlo escribió:

100

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos "Todos los que lo conocieron estarán de acuerdo en que poseía más de las características del estadístico perfecto que cualquier otro hombre de su tiempo. Ellos también coincidirán en el balance esencial y tolerancia de su punto de vista, y en ese algo que lo hizo durante su vida la misma persona amistosa, confiable, callada y sin malicia, que trabajó no para su reputación personal, sino porque sintió que había un trabajo que hacer y por lo tanto valía la pena hacerlo bien".

101

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

CONTRASTE DE HIPÓTESIS

¿Para qué? Para, siguiendo con el proceso de ahorro mediante el estudio de muestras, establecer los criterios matemáticos que nos permiten predecir y asegurar características de la población; para asegurar que otra muestra procede o no de la misma población, para determinar si un medicamento o una dieta funcionan, para aprender a interpretar las estadísticas hechas por otros y decidir si "son de fiar"

102

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Contraste de Hipótesis Hipótesis estadísticas. Definiciones

Como se indicó anteriormente, el método de Contraste de Hipótesis no es más que otra de las metodologías empleadas dentro de la Inferencia Estadística. Planteamiento del problema General: Se trata de tomar decisiones y conocer características de la población a partir de datos obtenidos en el estudio de una muestra. Para ello, realizamos suposiciones acerca de la población en estudio; tales supuestos, que finalmente pueden resultar ciertos o falsos, se denominan Hipótesis Estadísticas. -Para plantear este tipo de problemas, se establece una hipótesis principal, H0, que denominamos Nula y consideramos en principio cierta, para comenzar a trabajar; establecemos además otra hipótesis, que denominamos Alternativa, denotamos como H1 , y consideramos en principio falsa. -El problema consiste en obtener un criterio de decisión que permita determinar si se acepta H0, o si por el contrario, debe rechazarse y aceptar H1. -Si planteamos H0 en términos de igualdad, es decir, la enunciamos como: "Parámetro estadístico x=B" deberemos realizar un test bilateral o de dos colas, mientras que si la planteamos en términos de mayoría / minoría, es decir: "Parámetro estadístico x>B (