Ejercicio 1(10 puntos)

ESTADISTICA Y SUS APLICACIONES EN CIENCIAS SOCIALES. Segundo Parcial Montevideo, 4 de julio de 2015. Nombre: ________________________________________...
3 downloads 1 Views 492KB Size
ESTADISTICA Y SUS APLICACIONES EN CIENCIAS SOCIALES. Segundo Parcial Montevideo, 4 de julio de 2015.

Nombre: _________________________________________ Horario del grupo: ____________________ C.I.:

_____________________________ Profesor: ________________________________________

Ejercicio 1(10 puntos) La tasa de desperdicio en una empresa es la cantidad de artículos defectuosos —productos que deben ser descartados— por cada 100 producidos. Por tanto, para una cantidad dada de artículos producidos, una disminución en la tasa de desperdicio refleja mayor productividad de los trabajadores. La tasa de desperdicio puede emplearse para medir el efecto de la capacitación de los trabajadores en la productividad. Con ayuda de los datos del año 1987 para una muestra de empresas, se obtiene la siguiente ecuación estimada:

Donde n=29, R2 =0,262, tasa_desper es tasa de desperdicio, hscapacit son las horas de capacitación por año por empleado, ventas son las ventas anuales de la empresa (en dólares) y empleo es la cantidad de empleados que tiene la empresa. En 1987 la tasa de desperdicio promedio en la muestra es de 4,6 y el promedio de hrscapacit es de 8,9. a) ¿Cómo se interpreta el coeficiente asociados a hscapacit? b) Suponiendo que las ventas y el nivel de empleo se mantienen constantes, ¿cuánto se espera que disminuya la tasa de desperdicios si las horas de capacitación que reciben los empleados por año se incrementan en 3? c) ¿La variable hscapacit es estadísticamente significativa al 10%? Escriba la hipótesis nula y la alternativa, si se supone que la alternativa es que la cantidad de horas de capacitación por año por empleado afecta negativamente la tasa de desperdicio. Explicite el estadístico de prueba utilizado, el valor crítico y la regla de rechazo.

Ejercicio 2 (20 puntos) El modelo siguiente puede usarse para estudiar si los gastos de campaña afectan los resultados de las elecciones:

donde votosA es el porcentaje de votos recibidos por el candidato A, gastosA y gastosB son los gastos de campaña del candidato A y del candidato B y foratalezaA es el porcentaje de votos que obtuvo el partido de A en la elección presidencial anterior más reciente (una medida de la fortaleza del partido del candidato A). a) Utilizando el modelo poblacional, ¿cómo interpretaría el coeficiente asociado a los votos que obtuvo el candidato A en la elección anterior más reciente? b) ¿Cuál es el signo que se puede esperar de los coeficientes y ? Se estimó la regresión mediante MCO utilizando datos de 173 localidades. Los resultados son los que se presentan en la siguiente tabla:

Source | SS df MS -------------+-----------------------------Model | 38405.1089 3 12801.703 Residual | 10052.1396 169 59.4801161 -------------+-----------------------------Total | 48457.2486 172 281.728189

Number of obs F( 3, 169) Prob > F R-squared Adj R-squared Root MSE

= = = = = =

173 215.23 0.0000 0.7926 0.7889 7.7123

-----------------------------------------------------------------------------votosA | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------log(gastosA) | 6.083316 0.38215 15.92 0.000 5.328914 6.837719 log(gastosB) | -6.615417 0.378820 -17.46 0.000 -7.363247 -5.867588 fortalezaA | 0.151957 0.062018 xxxxx 0.015 xxxxx xxxxx _cons | 45.07893 3.926305 11.48 0.000 37.32801 52.82985 ------------------------------------------------------------------------------

c) ¿Son los gastos de A significativos al 5% para determinar el porcentaje de votos recibidos por el candidato A? ¿Y los gastos realizados por el candidato B? Responda utilizando los datos de la tabla sin realizar cálculos adicionales. d) Calcule el valor t del estadístico asociado a la prueba de hipótesis H0: de , frente a la alternativa H1: de a un nivel de significancia del 5% (deje 4 valores después de la coma). ¿Qué concluye respecto a esta prueba? e) Calcule el intervalo de confianza al 95% de confianza para el parámetro asociado a fortalezaA. f) Escriba la hipótesis nula y la alternativa de la prueba de significación global del modelo. Si el valor de tabla al 5% de significancia de una F(3,169)=2,696 ¿se rechaza la hipótesis nula que implica esta prueba?

Ejercicio 3 (18 puntos) La media obtenida de una muestra aleatoria de tamaño 1000 para cierta variable es igual a 435, con una desviación estándar igual a 186. a. Obtenga los intervalos de confianza al 95% y 99% de confianza para la media . b. Explique cuál es la interpretación que podemos dar a los valores obtenidos para ambos intervalos. c. Pruebe la hipótesis nula = 420 contra la alternativa bilateral a los niveles de significación de 5% y 1%, explicando el procedimiento seguido. d. Explique la relación entre los resultados obtenidos en los puntos a. y c.

Ejercicio 4 (12 puntos) En días previos a una elección municipal, el candidato DM contrata a una consultora de opinión para realizar una encuesta que permita estimar la proporción de votantes por este candidato. Realizada una muestra aleatoria a 1000 votantes, se constata que 573 declaran que votarán por DM. a. Defina el experimento aleatorio realizado, el modelo de probabilidad asociado y el parámetro de interés. b. Defina la distribución aproximada de la proporción muestral. c. Someta a prueba la hipótesis nula p=0.5 contra la alternativa p>0.5 al 99% de confianza.

SOLUCION Ejercicio 1 (10 puntos) a) La variable hscapacit se interpreta como que una hora más de capacitación por empleado hace que log(tasa_desper) disminuya .029, lo que significa que la tasa de desperdicio es aproximadamente 2.9% menor. b) Si cada empleado recibe tres horas más de capacitación por año, se estima que la tasa de desperdicio sea: ; o sea, que la tasa de desperdicio disminuye en 8,7% si se aumentan 3 horas la capacitación por año de los trabajadores. c) Las prueba de hipótesis que se solicita es:

El estadístico t solicitado es:

La regla de rechazo es:

, donde

Por lo tanto,

y el estadístico calculado (-1,26) no cae dentro de la zona de rechazo, por lo que no podemos rechazar H0: las horas de capacitación no son significativas con un 90% de confianza.

Ejercicio 2 (20 puntos) a) La interpretación de es la siguiente: manteniendo los gastos de campaña del candidato A y del candidato B fijos, un aumento en un punto porcentual en los votos que obtuvo el partido de A en la elección presidencial más reciente, significa un aumento de en los votos que obtiene el candidato A en la elección actual. b) Se puede esperar que: a. , ya que un aumento en los gastos de campaña del candidato A generaría una mayor cantidad de votos; b. ya que un aumento en los gastos de campaña del otro candidato disminuirían los votos que obtiene el candidato A y; c. si fortalezaA es una medida de su fortaleza en la votación, si la fortaleza aumenta debería aumentar también la proporción de votos que obtiene. c) Según los datos con los que contamos, tanto los gastos de campaña del candidato A como los del candidato B son significativos para explicar el porcentaje de votos que obtiene el candidato A. Esto se debe a que el valor-p de log(gastosA) y log(gastosB) son 0 (menor al valor de significancia del 5%). También podemos concluir lo mismo observando los intervalos al 95% de confianza que calcula el programa, ya que el 0 no está comprendido en ellos (o sea que si se sacan 100 muestras aleatorias, en 95 de esas muestras el 0 no es un valor que aparezca en el intervalo). d) El estadístico t asociado a la prueba solicitada es:

. La regla de rechazo

implica comparar el valor absoluto de éste estadístico con un valor de tabla de una t con n-k-1 grados de libertad al 95% de confianza: . En este caso dado que 2,45>1,96, el estadístico entra en la zona de rechazo de H0, por lo tanto se

rechaza H0 y podemos decir que luego de descontados los efectos de los gastos de campaña de los candidatos A y B, la fortaleza del candidato A es significativa al 5% para determinar el porcentaje de votos que éste recibe. e) El intervalo de confianza se calcula como: f)

La prueba de significación global del modelo es:

Dado que el estadístico de este modelo es F(3,169)=215,23 mayor al valor F de tabla al 5% de significancia (que nos da la letra 2,696), se rechaza la hipótesis nula de que todos los parámetros son iguales a cero, a favor de la alternativa de que al menos uno es distinto.

Ejercicio 3 (18 puntos) a. Se trata de una muestra grande (n=1000), por tanto el teorema central del límite nos indica que podemos usar la distribución aproximada de la media muestral estandarizada:

Por lo tanto se obtiene las siguientes probabilidades:

donde y son los valores de la tabla de la distribución Normal (0,1) que acumulan respectivamente 97,5% y 99,5% de la probabilidad para valores menores o iguales. Por lo tanto se obtiene los siguientes intervalos aleatorios:

Esto conduce a los intervalos de confianza siguientes:

b. Interpretación: la probabilidad de obtener un intervalo que contenga el valor de la media poblacional es para cada uno de ellos 0.95 y 0.99. Las probabilidades calculadas para los intervalos tienen sentido antes de extraer la muestra. Diferentes muestras arrojarán distintos valores para los intervalos. No es lo mismo decir que la probabilidad de que la media poblacional quede en los intervalos obtenidos es 95%. La media poblacional es un número que no cambia y no tiene nada de aleatorio. No tiene sentido hablar de la probabilidad de que la media esté comprendida entre dos números.

c.

Bajo H0 cierta, entonces la distribución aproximada de la media muestral estandarizada es:

La regla de decisión consistirá en rechazar H0 para valores de muy alejados de 420, de manera que la regla de rechazo genere una probabilidad de error tipo I (rechazar H0 cuando es cierta) igual a 0.05 y 0,01 en cada caso. La regla de decisión es rechazar H0 si

(para nivel de significación 5%)

rechazar H0 si

(para nivel de significación 1%)

En nuestra muestra: Rechazo H0 a nivel de significación 5% No rechazo H0 a nivel de significación 1%

d. El intervalo de confianza al 5% no contenía al valor 420, lo que corresponde con que se rechaza la hipótesis nula de para un nivel de significación de 5%. Para un nivel de confianza de 1% el intervalo contiene al valor 420, y eso corresponde con que a un nivel de significación de 1% se rechaza la hipótesis nula de .

Ejercicio 4 (12 puntos)

a. El experimento asociado es extraer un individuo y observar si vota, es una prueba de Bernoulli, repetido 1000 veces. Si el muestreo fuera sin reposición, usaría el modelo hipergeométrico, para muestreo con reposición sería binomial, como el tamaño muestral es grande el modelo binomial aproxima bien al hipergeométrico. El parámetro de interés es la proporción poblacional de votantes por DM, es decir p.

b. Con n grande se cumple que:

c.

Bajo H0 cierta, entonces la distribución aproximada de la proporción muestral estandarizada es:

La regla de decisión consistirá en rechazar H0 para valores de muy a la derecha de 0.5, de manera la probabilidad de error tipo I (rechazar H0 cuando es cierta) sea igual a 0,01. La regla es rechazar H0 si

En la muestra se obtiene: Rechazo H0 al nivel de significación 5%